Wann man welches LLM einsetzen sollte – eine kompakte, praxisnahe Übersicht

Große Sprachmodelle sind keine Schweizer Taschenmesser, eher ein Werkzeugkoffer: Für jede Aufgabe gibt es Modelle, die bessere Qualität, geringere Latenz oder bessere Kosten liefern. Die Kunst ist das passende Trio aus Modellgröße, Architektur und Betriebsform zu wählen – plus eine robuste Einbettung (RAG, Tool‑Use, Guardrails).

Entscheidende Auswahlkriterien

Aufgabencharakter
- Wissensgenerierung vs. Wissensabruf (RAG)
- Strukturierte Planung/Reasoning vs. schnelle Konversation
- Kreativstil vs. präzise Sachlichkeit mit Zitaten
Qualität vs. Kosten vs. Latenz
- Premium-Modelle für knifflige, risikobehaftete Aufgaben
- Mid/Small-Modelle für hohe Volumina, SLAs und Edge/On‑Prem
Kontextbedarf
- Sehr lange Kontexte (lange PDFs/Wikis) → Modelle mit großem Kontextfenster
Tool‑Use/Agentik
- Solide Funktion-Aufrufe (APIs, Websuche, Kalender, CRM) und Planungskompetenz
Mehrsprachigkeit
- Deutschqualität, Stilkontrolle, Korrektheit von Formulierungen
Sicherheit, Datenschutz, Compliance
- EU-Datenverarbeitung, PII-Redaktion, Auditierbarkeit
Steuerbarkeit
- Systemprompt-Folgsamkeit, niedrige Halluzinationsneigung, deterministische Modi

Modell-Landschaft im Schnelldurchlauf

Modellfamilie	Stärken	Schwächen	Kontext	Tool‑Use	Kostenklasse	EU/On‑Prem-Option

OpenAI GPT‑4o / GPT‑4.1	Sehr starke Allrounder, Tool‑Use/Code, gute Deutschqualität	Premiumkosten	Groß	Ausgereift	Premium	Cloud (EU‑Compliance je nach Setup)
OpenAI GPT‑4o‑mini	Sehr kosteneffizient, flink	Etwas schwächeres Reasoning	Groß	Gut	Günstig	Cloud
Anthropic Claude 3.5 Sonnet	Starkes Reasoning, lange Kontexte, angenehmer Stil	Premiumkosten	Sehr groß	Gut	Premium	Cloud
Anthropic Claude 3.5 Haiku	Schnell, günstig	Weniger tiefes Reasoning	Groß	Gut	Günstig	Cloud
Google Gemini 1.5 Pro	Extrem große Kontexte, Multimodal	API/Ökosystem teils anders	Sehr groß	Gut	Premium	Cloud
Mistral Large	Solide EU‑Anbieter, gute Kosten/Leistung	Knapp unter Top‑Tier	Groß	Gut	Mittel	Teilw. EU/On‑Prem
Llama 3.1 (70B/8B)	Open‑Source, fein anpassbar, On‑Prem möglich	Bedarf an guter RAG/Prompting	Variabel	Variabel	Günstig bis mittel	On‑Prem möglich
Cohere Command R / R+	RAG‑stark, Business‑Fokus	Weniger bekannt als Big‑3	Groß	Gut	Mittel	Cloud
Aleph Alpha (Luminous)	EU‑Fokus, On‑Prem/Private Cloud	Modellgröße vs. Top‑Tier	Mittel	Gut	Mittel	Stark in EU/On‑Prem

Hinweis: Preise/Limits ändern sich oft; hier geht’s um Profile, nicht Tarife.

Muster: Welche Aufgaben passen zu welchen Modellen?

Komplexes, faktenlastiges Denken (Planen, Korrigieren, Zitieren)
- Premium (GPT‑4.1, Claude 3.5 Sonnet, Gemini 1.5 Pro)
Hohe Volumina, geringe Latenz, Standardaufgaben
- Mid/Small (GPT‑4o‑mini, Claude Haiku, Mistral Small/Medium, Llama 3.1 8B/70B)
Sehr lange Dokumente, viele Anhänge
- Gemini 1.5 Pro, Claude 3.5 Sonnet; alternativ RAG mit Re‑Ranking
Strikte EU‑Datenhoheit/On‑Prem
- Mistral (Self‑Hosted), Llama 3.1 (Self‑Hosted), Aleph Alpha
Chatbots/FAQ mit Unternehmenswissen (RAG)
- Praktisch jedes verlässliche Modell + gute RAG-Pipeline; Mid-Modelle oft ideal
Kreativstil (Marketing, Varianten)
- GPT‑4o/4.1, Claude 3.5 Sonnet; Budget: GPT‑4o‑mini/Claude Haiku

Architektur-Bausteine, die wichtiger sind als das „größere Modell“

Retrieval-Augmented Generation (RAG)
- Sauberes Chunking, starke Embeddings (bge‑m3 o. ä.), Cross‑Encoder Re‑Ranking
Tool‑Use
- Websuche/Browser, Kalender/CRM, Datenbanken, Fact‑Check‑Routinen
Guardrails & Policy
- PII‑Redaktion, Tonalitätsregeln, Blacklists/Whitelists, Output‑Filter
Caching & Kostenkontrolle
- Prompt‑ und Antwort‑Cache, Antwortvorlagen, Stufenmodell (Small→Large only on need)
Beobachtbarkeit & Evaluation
- Halluzinationsraten, Antwortlatenz, Klick‑/Konvertierungsrahrate, menschliches Review

Robustheit gegen Halluzinationen

Quellenpflicht: „Jede Tatsachenbehauptung mit URL + Datum“ (News/RAG)
Claim‑Checker‑Pass: Zweites, schnelles Modell prüft Aussagen stichprobenartig
Abstinenz‑Regel: „Wenn unsicher, nachfragen oder neutral formulieren“
Self‑Consistency / n‑Best: Mehrere Entwürfe, Ranking via Re‑Ranker

Praktische Prompt-/Systemvorlagen

Systemprompt (News/Recherche)
- „Du bist ein faktenstrenger Redakteur. Jede Aussage muss durch mind. 2 Quellen gestützt sein; gib Zitate/URLs mit Datum aus. Keine Spekulation. Wenn unklar, markiere als unbestätigt.“
Systemprompt (E‑Mail‑Agent)
- „Du bist ein höflicher deutschsprachiger Korrespondenz‑Assistent. Halte Firmenstilvorgaben ein, fasse Entscheidungen nicht ohne Freigabe. Erkenne Absichten (Support, Verkauf, Termin) und ziehe Vorlagen/CRM‑Daten heran.“
Systemprompt (Web‑Chatbot mit RAG)
- „Antworte ausschließlich auf Basis der bereitgestellten Wissensquellen. Wenn eine Info fehlt, signalisiere ‚nicht vorhanden‘ und biete eine Kontaktoption an. Verlinke relevante Abschnitte.“

Konkrete Empfehlungen für Ihre drei Vorhaben

Im Zweifel setze auf ein zweistufiges Setup: schnelles, günstiges Modell für 80% der Fälle; automatisches Upgrade auf ein Premium‑Modell für komplexe oder unsichere Fälle. So bleiben Kosten planbar und Qualität stabil.

1) Generierung von News mit Internet‑Recherche

Empfohlene Pipeline
- Planner (kleines Modell) erstellt Suchplan und Queries
- Websuche + Dedup + Extraktion (Reader)
- Faktenabgleich + Quellenbewertung
- Hauptmodell schreibt zusammenfassend mit Zitaten und Zeitstempeln
Modellwahl
- Premium: OpenAI GPT‑4.1 oder Anthropic Claude 3.5 Sonnet für das Schreiben/Prüfen
- Kostenoptimiert: OpenAI GPT‑4o‑mini für Recherche/Planung, Upgrade bei Unsicherheit
- Lange Kontexte (viele Quellen gleichzeitig): Google Gemini 1.5 Pro
- EU/On‑Prem: Mistral Large oder Llama 3.1 70B + starke RAG/Claim‑Checker
Extra-Tipps
- Erzwinge Quellenformat: [Autor/Medium] – Titel – URL – Abrufdatum
- Vermeide „neue Fakten“ ohne Link; nutze Markierungen wie „(unbestätigt)“

2) Automatisches Beantworten von E‑Mails

Typischer Flow
- Intent‑/Dringlichkeitserkennung → Policy/Template‑Auswahl → Entwurf → optionaler Review → Versand
Modellwahl
- Hauptarbeit: OpenAI GPT‑4o‑mini oder Anthropic Claude 3.5 Haiku (schnell, günstig, guter Stil auf Deutsch)
- Eskalation bei komplexen Fällen: GPT‑4o oder Claude 3.5 Sonnet
- Strikte EU/On‑Prem: Llama 3.1 8B/70B oder Mistral Medium/Large mit firmeneigenen Vorlagen
Extra-Tipps
- Einheitliche Tonalität via Style‑Guides/Few‑Shots
- PII‑Redaktion und Haftungshinweis automatisieren
- SLA: Ziel First‑Token < 500 ms, Gesamt < 2–5 s

3) Webseiten‑Chatbot (FAQ/Support/Vertrieb) mit eigenem Wissen

Architektur
- RAG mit Vektor‑DB (z. B. Qdrant/Weaviate), Re‑Ranking, Zitierpflicht
- Intent‑Router (Support, Sales, Termin) + Funktion‑Aufrufe
Modellwahl
- Kosten/Latency‑Sweet‑Spot: OpenAI GPT‑4o‑mini als Default
- Schwerere Fragen/Mehrschritt‑Reasoning: Auto‑Upgrade auf GPT‑4o oder Claude 3.5 Sonnet
- Sehr lange PDFs/Wissensbasen: Gemini 1.5 Pro
- EU/On‑Prem strikt: Llama 3.1 8B/70B oder Mistral Large, ggf. Aleph Alpha für sensitive Domänen
Extra-Tipps
- „Nur aus Quellen antworten“-Regel, mit klarer Fallback‑Antwort
- Analytics: Antwortabdeckung, Eskalationsquote, Nutzerzufriedenheit

Minimal‑Startkonfigurationen (Beispiel-Prompts)

News (Head prompt)
- „Ziel: Tageszusammenfassung zu [Thema] für deutschsprachiges Publikum. Schritte: (1) Query‑Plan, (2) Top‑Quellen finden, (3) Fakten extrahieren, (4) Zusammenfassen mit Zitaten. Jede Behauptung erhält mindestens eine URL und Datum.“
E‑Mails (Style Few‑Shots)
- 3–5 Beispielantworten mit gewünschtem Ton (freundlich, prägnant, Sie‑Form), plus Policy: „keine verbindlichen Zusagen ohne Freigabe“.
Web‑Chatbot (RAG Guardrail)
- „Antworte nur basierend auf bereitgestellten Passagen. Wenn unklar oder fehlend: ‚Dazu liegen mir keine verlässlichen Informationen vor.‘ Schlage Alternativen oder Kontakt vor.“

Kurzfazit: konkrete Modell‑Tipps

1. News mit Web‑Recherche
- Premium: GPT‑4.1 oder Claude 3.5 Sonnet als Schreib-/Faktenmodell
- Budget/Speed: GPT‑4o‑mini für Planung/Suche; Auto‑Upgrade bei Unsicherheit
- Viel Kontext: Gemini 1.5 Pro
- EU/On‑Prem: Mistral Large oder Llama 3.1 70B + robuste RAG/Claim‑Checker
1. Automatische E‑Mail‑Antworten
- Default: GPT‑4o‑mini oder Claude 3.5 Haiku
- Eskalation: GPT‑4o oder Claude 3.5 Sonnet
- On‑Prem/EU‑streng: Llama 3.1 8B/70B oder Mistral Medium/Large
1. Webseiten‑Chatbot
- Default: GPT‑4o‑mini mit RAG und Zitierpflicht
- Schwerfälle: GPT‑4o oder Claude 3.5 Sonnet
- Lange Dokumente: Gemini 1.5 Pro
- EU/On‑Prem: Llama 3.1 8B/70B oder Mistral Large; optional Aleph Alpha für sensible Inhalte

Damit haben Sie einen belastbaren Startpunkt: klar getrennte Qualitätsstufen, Tool‑Use/RAG als Fundament und konkrete Modellvorschläge je Aufgabe.

Claude, DeepSeek, Gemini, GPT‑5, Grok, Künstliche Intelligenz, Mistral, Perplexity, Sprachmodell