Wann man welches LLM einsetzen sollte – eine kompakte, praxisnahe Übersicht

Große Sprachmodelle sind keine Schweizer Taschenmesser, eher ein Werkzeugkoffer: Für jede Aufgabe gibt es Modelle, die bessere Qualität, geringere Latenz oder bessere Kosten liefern. Die Kunst ist das passende Trio aus Modellgröße, Architektur und Betriebsform zu wählen – plus eine robuste Einbettung (RAG, Tool‑Use, Guardrails).

 

Entscheidende Auswahlkriterien

  • Aufgabencharakter
    • Wissensgenerierung vs. Wissensabruf (RAG)
    • Strukturierte Planung/Reasoning vs. schnelle Konversation
    • Kreativstil vs. präzise Sachlichkeit mit Zitaten
  • Qualität vs. Kosten vs. Latenz
    • Premium-Modelle für knifflige, risikobehaftete Aufgaben
    • Mid/Small-Modelle für hohe Volumina, SLAs und Edge/On‑Prem
  • Kontextbedarf
    • Sehr lange Kontexte (lange PDFs/Wikis) → Modelle mit großem Kontextfenster
  • Tool‑Use/Agentik
    • Solide Funktion-Aufrufe (APIs, Websuche, Kalender, CRM) und Planungskompetenz
  • Mehrsprachigkeit
    • Deutschqualität, Stilkontrolle, Korrektheit von Formulierungen
  • Sicherheit, Datenschutz, Compliance
    • EU-Datenverarbeitung, PII-Redaktion, Auditierbarkeit
  • Steuerbarkeit
    • Systemprompt-Folgsamkeit, niedrige Halluzinationsneigung, deterministische Modi
 

Modell-Landschaft im Schnelldurchlauf

Modellfamilie
Stärken
Schwächen
Kontext
Tool‑Use
Kostenklasse
EU/On‑Prem-Option
 
OpenAI GPT‑4o / GPT‑4.1Sehr starke Allrounder, Tool‑Use/Code, gute DeutschqualitätPremiumkostenGroßAusgereiftPremiumCloud (EU‑Compliance je nach Setup)
OpenAI GPT‑4o‑miniSehr kosteneffizient, flinkEtwas schwächeres ReasoningGroßGutGünstigCloud
Anthropic Claude 3.5 SonnetStarkes Reasoning, lange Kontexte, angenehmer StilPremiumkostenSehr großGutPremiumCloud
Anthropic Claude 3.5 HaikuSchnell, günstigWeniger tiefes ReasoningGroßGutGünstigCloud
Google Gemini 1.5 ProExtrem große Kontexte, MultimodalAPI/Ökosystem teils andersSehr großGutPremiumCloud
Mistral LargeSolide EU‑Anbieter, gute Kosten/LeistungKnapp unter Top‑TierGroßGutMittelTeilw. EU/On‑Prem
Llama 3.1 (70B/8B)Open‑Source, fein anpassbar, On‑Prem möglichBedarf an guter RAG/PromptingVariabelVariabelGünstig bis mittelOn‑Prem möglich
Cohere Command R / R+RAG‑stark, Business‑FokusWeniger bekannt als Big‑3GroßGutMittelCloud
Aleph Alpha (Luminous)EU‑Fokus, On‑Prem/Private CloudModellgröße vs. Top‑TierMittelGutMittelStark in EU/On‑Prem

Hinweis: Preise/Limits ändern sich oft; hier geht’s um Profile, nicht Tarife.

 

Muster: Welche Aufgaben passen zu welchen Modellen?

  • Komplexes, faktenlastiges Denken (Planen, Korrigieren, Zitieren)
    • Premium (GPT‑4.1, Claude 3.5 Sonnet, Gemini 1.5 Pro)
  • Hohe Volumina, geringe Latenz, Standardaufgaben
    • Mid/Small (GPT‑4o‑mini, Claude Haiku, Mistral Small/Medium, Llama 3.1 8B/70B)
  • Sehr lange Dokumente, viele Anhänge
    • Gemini 1.5 Pro, Claude 3.5 Sonnet; alternativ RAG mit Re‑Ranking
  • Strikte EU‑Datenhoheit/On‑Prem
    • Mistral (Self‑Hosted), Llama 3.1 (Self‑Hosted), Aleph Alpha
  • Chatbots/FAQ mit Unternehmenswissen (RAG)
    • Praktisch jedes verlässliche Modell + gute RAG-Pipeline; Mid-Modelle oft ideal
  • Kreativstil (Marketing, Varianten)
    • GPT‑4o/4.1, Claude 3.5 Sonnet; Budget: GPT‑4o‑mini/Claude Haiku
 

Architektur-Bausteine, die wichtiger sind als das „größere Modell“

  • Retrieval-Augmented Generation (RAG)
    • Sauberes Chunking, starke Embeddings (bge‑m3 o. ä.), Cross‑Encoder Re‑Ranking
  • Tool‑Use
    • Websuche/Browser, Kalender/CRM, Datenbanken, Fact‑Check‑Routinen
  • Guardrails & Policy
    • PII‑Redaktion, Tonalitätsregeln, Blacklists/Whitelists, Output‑Filter
  • Caching & Kostenkontrolle
    • Prompt‑ und Antwort‑Cache, Antwortvorlagen, Stufenmodell (Small→Large only on need)
  • Beobachtbarkeit & Evaluation
    • Halluzinationsraten, Antwortlatenz, Klick‑/Konvertierungsrahrate, menschliches Review
 

Robustheit gegen Halluzinationen

  • Quellenpflicht: „Jede Tatsachenbehauptung mit URL + Datum“ (News/RAG)
  • Claim‑Checker‑Pass: Zweites, schnelles Modell prüft Aussagen stichprobenartig
  • Abstinenz‑Regel: „Wenn unsicher, nachfragen oder neutral formulieren“
  • Self‑Consistency / n‑Best: Mehrere Entwürfe, Ranking via Re‑Ranker
 

Praktische Prompt-/Systemvorlagen

  • Systemprompt (News/Recherche)
    • „Du bist ein faktenstrenger Redakteur. Jede Aussage muss durch mind. 2 Quellen gestützt sein; gib Zitate/URLs mit Datum aus. Keine Spekulation. Wenn unklar, markiere als unbestätigt.“
  • Systemprompt (E‑Mail‑Agent)
    • „Du bist ein höflicher deutschsprachiger Korrespondenz‑Assistent. Halte Firmenstilvorgaben ein, fasse Entscheidungen nicht ohne Freigabe. Erkenne Absichten (Support, Verkauf, Termin) und ziehe Vorlagen/CRM‑Daten heran.“
  • Systemprompt (Web‑Chatbot mit RAG)
    • „Antworte ausschließlich auf Basis der bereitgestellten Wissensquellen. Wenn eine Info fehlt, signalisiere ‚nicht vorhanden‘ und biete eine Kontaktoption an. Verlinke relevante Abschnitte.“
 

 

Konkrete Empfehlungen für Ihre drei Vorhaben

Im Zweifel setze auf ein zweistufiges Setup: schnelles, günstiges Modell für 80% der Fälle; automatisches Upgrade auf ein Premium‑Modell für komplexe oder unsichere Fälle. So bleiben Kosten planbar und Qualität stabil.

 

1) Generierung von News mit Internet‑Recherche

  • Empfohlene Pipeline
    • Planner (kleines Modell) erstellt Suchplan und Queries
    • Websuche + Dedup + Extraktion (Reader)
    • Faktenabgleich + Quellenbewertung
    • Hauptmodell schreibt zusammenfassend mit Zitaten und Zeitstempeln
  • Modellwahl
    • Premium: OpenAI GPT‑4.1 oder Anthropic Claude 3.5 Sonnet für das Schreiben/Prüfen
    • Kostenoptimiert: OpenAI GPT‑4o‑mini für Recherche/Planung, Upgrade bei Unsicherheit
    • Lange Kontexte (viele Quellen gleichzeitig): Google Gemini 1.5 Pro
    • EU/On‑Prem: Mistral Large oder Llama 3.1 70B + starke RAG/Claim‑Checker
  • Extra-Tipps
    • Erzwinge Quellenformat: [Autor/Medium] – Titel – URL – Abrufdatum
    • Vermeide „neue Fakten“ ohne Link; nutze Markierungen wie „(unbestätigt)“
 

2) Automatisches Beantworten von E‑Mails

  • Typischer Flow
    • Intent‑/Dringlichkeitserkennung → Policy/Template‑Auswahl → Entwurf → optionaler Review → Versand
  • Modellwahl
    • Hauptarbeit: OpenAI GPT‑4o‑mini oder Anthropic Claude 3.5 Haiku (schnell, günstig, guter Stil auf Deutsch)
    • Eskalation bei komplexen Fällen: GPT‑4o oder Claude 3.5 Sonnet
    • Strikte EU/On‑Prem: Llama 3.1 8B/70B oder Mistral Medium/Large mit firmeneigenen Vorlagen
  • Extra-Tipps
    • Einheitliche Tonalität via Style‑Guides/Few‑Shots
    • PII‑Redaktion und Haftungshinweis automatisieren
    • SLA: Ziel First‑Token < 500 ms, Gesamt < 2–5 s
 

3) Webseiten‑Chatbot (FAQ/Support/Vertrieb) mit eigenem Wissen

  • Architektur
    • RAG mit Vektor‑DB (z. B. Qdrant/Weaviate), Re‑Ranking, Zitierpflicht
    • Intent‑Router (Support, Sales, Termin) + Funktion‑Aufrufe
  • Modellwahl
    • Kosten/Latency‑Sweet‑Spot: OpenAI GPT‑4o‑mini als Default
    • Schwerere Fragen/Mehrschritt‑Reasoning: Auto‑Upgrade auf GPT‑4o oder Claude 3.5 Sonnet
    • Sehr lange PDFs/Wissensbasen: Gemini 1.5 Pro
    • EU/On‑Prem strikt: Llama 3.1 8B/70B oder Mistral Large, ggf. Aleph Alpha für sensitive Domänen
  • Extra-Tipps
    • „Nur aus Quellen antworten“-Regel, mit klarer Fallback‑Antwort
    • Analytics: Antwortabdeckung, Eskalationsquote, Nutzerzufriedenheit
 

 

Minimal‑Startkonfigurationen (Beispiel-Prompts)

  • News (Head prompt)
    • „Ziel: Tageszusammenfassung zu [Thema] für deutschsprachiges Publikum. Schritte: (1) Query‑Plan, (2) Top‑Quellen finden, (3) Fakten extrahieren, (4) Zusammenfassen mit Zitaten. Jede Behauptung erhält mindestens eine URL und Datum.“
  • E‑Mails (Style Few‑Shots)
    • 3–5 Beispielantworten mit gewünschtem Ton (freundlich, prägnant, Sie‑Form), plus Policy: „keine verbindlichen Zusagen ohne Freigabe“.
  • Web‑Chatbot (RAG Guardrail)
    • „Antworte nur basierend auf bereitgestellten Passagen. Wenn unklar oder fehlend: ‚Dazu liegen mir keine verlässlichen Informationen vor.‘ Schlage Alternativen oder Kontakt vor.“
 

 

Kurzfazit: konkrete Modell‑Tipps

    1. News mit Web‑Recherche
    • Premium: GPT‑4.1 oder Claude 3.5 Sonnet als Schreib-/Faktenmodell
    • Budget/Speed: GPT‑4o‑mini für Planung/Suche; Auto‑Upgrade bei Unsicherheit
    • Viel Kontext: Gemini 1.5 Pro
    • EU/On‑Prem: Mistral Large oder Llama 3.1 70B + robuste RAG/Claim‑Checker
    1. Automatische E‑Mail‑Antworten
    • Default: GPT‑4o‑mini oder Claude 3.5 Haiku
    • Eskalation: GPT‑4o oder Claude 3.5 Sonnet
    • On‑Prem/EU‑streng: Llama 3.1 8B/70B oder Mistral Medium/Large
    1. Webseiten‑Chatbot
    • Default: GPT‑4o‑mini mit RAG und Zitierpflicht
    • Schwerfälle: GPT‑4o oder Claude 3.5 Sonnet
    • Lange Dokumente: Gemini 1.5 Pro
    • EU/On‑Prem: Llama 3.1 8B/70B oder Mistral Large; optional Aleph Alpha für sensible Inhalte
 

Damit haben Sie einen belastbaren Startpunkt: klar getrennte Qualitätsstufen, Tool‑Use/RAG als Fundament und konkrete Modellvorschläge je Aufgabe.