Wann man welches LLM einsetzen sollte – eine kompakte, praxisnahe Übersicht
Große Sprachmodelle sind keine Schweizer Taschenmesser, eher ein Werkzeugkoffer: Für jede Aufgabe gibt es Modelle, die bessere Qualität, geringere Latenz oder bessere Kosten liefern. Die Kunst ist das passende Trio aus Modellgröße, Architektur und Betriebsform zu wählen – plus eine robuste Einbettung (RAG, Tool‑Use, Guardrails).
Entscheidende Auswahlkriterien
- Aufgabencharakter
- Wissensgenerierung vs. Wissensabruf (RAG)
- Strukturierte Planung/Reasoning vs. schnelle Konversation
- Kreativstil vs. präzise Sachlichkeit mit Zitaten
- Qualität vs. Kosten vs. Latenz
- Premium-Modelle für knifflige, risikobehaftete Aufgaben
- Mid/Small-Modelle für hohe Volumina, SLAs und Edge/On‑Prem
- Kontextbedarf
- Sehr lange Kontexte (lange PDFs/Wikis) → Modelle mit großem Kontextfenster
- Tool‑Use/Agentik
- Solide Funktion-Aufrufe (APIs, Websuche, Kalender, CRM) und Planungskompetenz
- Mehrsprachigkeit
- Deutschqualität, Stilkontrolle, Korrektheit von Formulierungen
- Sicherheit, Datenschutz, Compliance
- EU-Datenverarbeitung, PII-Redaktion, Auditierbarkeit
- Steuerbarkeit
- Systemprompt-Folgsamkeit, niedrige Halluzinationsneigung, deterministische Modi
Modell-Landschaft im Schnelldurchlauf
Modellfamilie | Stärken | Schwächen | Kontext | Tool‑Use | Kostenklasse | EU/On‑Prem-Option |
|---|
| OpenAI GPT‑4o / GPT‑4.1 | Sehr starke Allrounder, Tool‑Use/Code, gute Deutschqualität | Premiumkosten | Groß | Ausgereift | Premium | Cloud (EU‑Compliance je nach Setup) |
| OpenAI GPT‑4o‑mini | Sehr kosteneffizient, flink | Etwas schwächeres Reasoning | Groß | Gut | Günstig | Cloud |
| Anthropic Claude 3.5 Sonnet | Starkes Reasoning, lange Kontexte, angenehmer Stil | Premiumkosten | Sehr groß | Gut | Premium | Cloud |
| Anthropic Claude 3.5 Haiku | Schnell, günstig | Weniger tiefes Reasoning | Groß | Gut | Günstig | Cloud |
| Google Gemini 1.5 Pro | Extrem große Kontexte, Multimodal | API/Ökosystem teils anders | Sehr groß | Gut | Premium | Cloud |
| Mistral Large | Solide EU‑Anbieter, gute Kosten/Leistung | Knapp unter Top‑Tier | Groß | Gut | Mittel | Teilw. EU/On‑Prem |
| Llama 3.1 (70B/8B) | Open‑Source, fein anpassbar, On‑Prem möglich | Bedarf an guter RAG/Prompting | Variabel | Variabel | Günstig bis mittel | On‑Prem möglich |
| Cohere Command R / R+ | RAG‑stark, Business‑Fokus | Weniger bekannt als Big‑3 | Groß | Gut | Mittel | Cloud |
| Aleph Alpha (Luminous) | EU‑Fokus, On‑Prem/Private Cloud | Modellgröße vs. Top‑Tier | Mittel | Gut | Mittel | Stark in EU/On‑Prem |
Hinweis: Preise/Limits ändern sich oft; hier geht’s um Profile, nicht Tarife.
Muster: Welche Aufgaben passen zu welchen Modellen?
- Komplexes, faktenlastiges Denken (Planen, Korrigieren, Zitieren)
- Premium (GPT‑4.1, Claude 3.5 Sonnet, Gemini 1.5 Pro)
- Hohe Volumina, geringe Latenz, Standardaufgaben
- Mid/Small (GPT‑4o‑mini, Claude Haiku, Mistral Small/Medium, Llama 3.1 8B/70B)
- Sehr lange Dokumente, viele Anhänge
- Gemini 1.5 Pro, Claude 3.5 Sonnet; alternativ RAG mit Re‑Ranking
- Strikte EU‑Datenhoheit/On‑Prem
- Mistral (Self‑Hosted), Llama 3.1 (Self‑Hosted), Aleph Alpha
- Chatbots/FAQ mit Unternehmenswissen (RAG)
- Praktisch jedes verlässliche Modell + gute RAG-Pipeline; Mid-Modelle oft ideal
- Kreativstil (Marketing, Varianten)
- GPT‑4o/4.1, Claude 3.5 Sonnet; Budget: GPT‑4o‑mini/Claude Haiku
Architektur-Bausteine, die wichtiger sind als das „größere Modell“
- Retrieval-Augmented Generation (RAG)
- Sauberes Chunking, starke Embeddings (bge‑m3 o. ä.), Cross‑Encoder Re‑Ranking
- Tool‑Use
- Websuche/Browser, Kalender/CRM, Datenbanken, Fact‑Check‑Routinen
- Guardrails & Policy
- PII‑Redaktion, Tonalitätsregeln, Blacklists/Whitelists, Output‑Filter
- Caching & Kostenkontrolle
- Prompt‑ und Antwort‑Cache, Antwortvorlagen, Stufenmodell (Small→Large only on need)
- Beobachtbarkeit & Evaluation
- Halluzinationsraten, Antwortlatenz, Klick‑/Konvertierungsrahrate, menschliches Review
Robustheit gegen Halluzinationen
- Quellenpflicht: „Jede Tatsachenbehauptung mit URL + Datum“ (News/RAG)
- Claim‑Checker‑Pass: Zweites, schnelles Modell prüft Aussagen stichprobenartig
- Abstinenz‑Regel: „Wenn unsicher, nachfragen oder neutral formulieren“
- Self‑Consistency / n‑Best: Mehrere Entwürfe, Ranking via Re‑Ranker
Praktische Prompt-/Systemvorlagen
- Systemprompt (News/Recherche)
- „Du bist ein faktenstrenger Redakteur. Jede Aussage muss durch mind. 2 Quellen gestützt sein; gib Zitate/URLs mit Datum aus. Keine Spekulation. Wenn unklar, markiere als unbestätigt.“
- Systemprompt (E‑Mail‑Agent)
- „Du bist ein höflicher deutschsprachiger Korrespondenz‑Assistent. Halte Firmenstilvorgaben ein, fasse Entscheidungen nicht ohne Freigabe. Erkenne Absichten (Support, Verkauf, Termin) und ziehe Vorlagen/CRM‑Daten heran.“
- Systemprompt (Web‑Chatbot mit RAG)
- „Antworte ausschließlich auf Basis der bereitgestellten Wissensquellen. Wenn eine Info fehlt, signalisiere ‚nicht vorhanden‘ und biete eine Kontaktoption an. Verlinke relevante Abschnitte.“
Konkrete Empfehlungen für Ihre drei Vorhaben
Im Zweifel setze auf ein zweistufiges Setup: schnelles, günstiges Modell für 80% der Fälle; automatisches Upgrade auf ein Premium‑Modell für komplexe oder unsichere Fälle. So bleiben Kosten planbar und Qualität stabil.
1) Generierung von News mit Internet‑Recherche
- Empfohlene Pipeline
- Planner (kleines Modell) erstellt Suchplan und Queries
- Websuche + Dedup + Extraktion (Reader)
- Faktenabgleich + Quellenbewertung
- Hauptmodell schreibt zusammenfassend mit Zitaten und Zeitstempeln
- Modellwahl
- Premium: OpenAI GPT‑4.1 oder Anthropic Claude 3.5 Sonnet für das Schreiben/Prüfen
- Kostenoptimiert: OpenAI GPT‑4o‑mini für Recherche/Planung, Upgrade bei Unsicherheit
- Lange Kontexte (viele Quellen gleichzeitig): Google Gemini 1.5 Pro
- EU/On‑Prem: Mistral Large oder Llama 3.1 70B + starke RAG/Claim‑Checker
- Extra-Tipps
- Erzwinge Quellenformat: [Autor/Medium] – Titel – URL – Abrufdatum
- Vermeide „neue Fakten“ ohne Link; nutze Markierungen wie „(unbestätigt)“
2) Automatisches Beantworten von E‑Mails
- Typischer Flow
- Intent‑/Dringlichkeitserkennung → Policy/Template‑Auswahl → Entwurf → optionaler Review → Versand
- Modellwahl
- Hauptarbeit: OpenAI GPT‑4o‑mini oder Anthropic Claude 3.5 Haiku (schnell, günstig, guter Stil auf Deutsch)
- Eskalation bei komplexen Fällen: GPT‑4o oder Claude 3.5 Sonnet
- Strikte EU/On‑Prem: Llama 3.1 8B/70B oder Mistral Medium/Large mit firmeneigenen Vorlagen
- Extra-Tipps
- Einheitliche Tonalität via Style‑Guides/Few‑Shots
- PII‑Redaktion und Haftungshinweis automatisieren
- SLA: Ziel First‑Token < 500 ms, Gesamt < 2–5 s
3) Webseiten‑Chatbot (FAQ/Support/Vertrieb) mit eigenem Wissen
- Architektur
- RAG mit Vektor‑DB (z. B. Qdrant/Weaviate), Re‑Ranking, Zitierpflicht
- Intent‑Router (Support, Sales, Termin) + Funktion‑Aufrufe
- Modellwahl
- Kosten/Latency‑Sweet‑Spot: OpenAI GPT‑4o‑mini als Default
- Schwerere Fragen/Mehrschritt‑Reasoning: Auto‑Upgrade auf GPT‑4o oder Claude 3.5 Sonnet
- Sehr lange PDFs/Wissensbasen: Gemini 1.5 Pro
- EU/On‑Prem strikt: Llama 3.1 8B/70B oder Mistral Large, ggf. Aleph Alpha für sensitive Domänen
- Extra-Tipps
- „Nur aus Quellen antworten“-Regel, mit klarer Fallback‑Antwort
- Analytics: Antwortabdeckung, Eskalationsquote, Nutzerzufriedenheit
Minimal‑Startkonfigurationen (Beispiel-Prompts)
- News (Head prompt)
- „Ziel: Tageszusammenfassung zu [Thema] für deutschsprachiges Publikum. Schritte: (1) Query‑Plan, (2) Top‑Quellen finden, (3) Fakten extrahieren, (4) Zusammenfassen mit Zitaten. Jede Behauptung erhält mindestens eine URL und Datum.“
- E‑Mails (Style Few‑Shots)
- 3–5 Beispielantworten mit gewünschtem Ton (freundlich, prägnant, Sie‑Form), plus Policy: „keine verbindlichen Zusagen ohne Freigabe“.
- Web‑Chatbot (RAG Guardrail)
- „Antworte nur basierend auf bereitgestellten Passagen. Wenn unklar oder fehlend: ‚Dazu liegen mir keine verlässlichen Informationen vor.‘ Schlage Alternativen oder Kontakt vor.“
Kurzfazit: konkrete Modell‑Tipps
- News mit Web‑Recherche
- Premium: GPT‑4.1 oder Claude 3.5 Sonnet als Schreib-/Faktenmodell
- Budget/Speed: GPT‑4o‑mini für Planung/Suche; Auto‑Upgrade bei Unsicherheit
- Viel Kontext: Gemini 1.5 Pro
- EU/On‑Prem: Mistral Large oder Llama 3.1 70B + robuste RAG/Claim‑Checker
- Automatische E‑Mail‑Antworten
- Default: GPT‑4o‑mini oder Claude 3.5 Haiku
- Eskalation: GPT‑4o oder Claude 3.5 Sonnet
- On‑Prem/EU‑streng: Llama 3.1 8B/70B oder Mistral Medium/Large
- Webseiten‑Chatbot
- Default: GPT‑4o‑mini mit RAG und Zitierpflicht
- Schwerfälle: GPT‑4o oder Claude 3.5 Sonnet
- Lange Dokumente: Gemini 1.5 Pro
- EU/On‑Prem: Llama 3.1 8B/70B oder Mistral Large; optional Aleph Alpha für sensible Inhalte
Damit haben Sie einen belastbaren Startpunkt: klar getrennte Qualitätsstufen, Tool‑Use/RAG als Fundament und konkrete Modellvorschläge je Aufgabe.