Claude Mythos schlägt Opus 4.6 „um Welten“ – was steckt dahinter?
Die Schlagzeile „Claude Mythos schlägt Opus 4.6 um Welten“ sorgt aktuell für Diskussionen in der KI-Community. Doch handelt es sich dabei um Clickbait – oder tatsächlich um einen fundamentalen Technologiesprung?
Ein Blick auf verfügbare Daten, Leaks und Benchmarks zeigt: Der Unterschied zwischen den beiden Modellen ist real – und möglicherweise größer als bei allen vorherigen Generationen.
Was Opus 4.6 bisher geleistet hat
Das Modell Claude Opus 4.6 gilt als eines der leistungsfähigsten allgemein verfügbaren KI-Systeme seiner Zeit.
Es zeichnet sich aus durch:
- starke Leistungen in komplexen Multi-Step-Aufgaben
- hohe Kompetenz in Softwareentwicklung und Debugging
- Fähigkeit, große Kontexte (bis zu Millionen Tokens) zu verarbeiten
- zuverlässige Planung und agentenbasierte Workflows
In Benchmarks erreichte Opus 4.6 unter anderem:
- 53,1 % bei Humanity’s Last Exam
- 68,8 % bei ARC AGI 2
- 65,4 % bei Terminal-Bench Coding
Damit war es bislang ein „Generalist auf Top-Niveau“.
Claude Mythos: Kein Upgrade, sondern ein „Step Change“
Mit Claude Mythos ändert sich die Perspektive grundlegend.
Laut geleakten Informationen spricht der Hersteller erstmals von einem „Step Change“ statt inkrementeller Verbesserung .
Das bedeutet:
Nicht nur besser – sondern eine neue Fähigkeitsklasse.
Harte Zahlen: Wie groß ist der Unterschied wirklich?
Vergleichsdaten zeigen deutliche Leistungsabstände:
| Benchmark | Mythos | Opus 4.6 |
|---|---|---|
| SWE-bench Verified | 93,9 % | 80,8 % |
| SWE-bench Pro | 77,8 % | 53,4 % |
| USAMO (Mathe) | 97,6 % | 65,4 % |
| CyberGym (Security) | 83,1 % | 66,6 % |
| Terminal-Bench | 82,0 % | 65,4 % |
Diese Unterschiede sind nicht marginal – sie liegen teilweise bei über 20 Prozentpunkten.
Der entscheidende Faktor: Cybersecurity
Der größte Vorsprung von Mythos liegt im Bereich IT-Sicherheit.
Das Modell kann laut Berichten:
- tausende Zero-Day-Schwachstellen identifizieren
- funktionierende Exploits generieren
- Angriffsketten automatisiert kombinieren
- komplexe Systeme eigenständig kompromittieren
Damit überschreitet es eine kritische Schwelle:
Es ist nicht nur ein Analyse-Tool, sondern potenziell ein autonom handelndes Cyber-Werkzeug.
Warum Mythos nicht veröffentlicht wird
Genau diese Fähigkeiten sind der Grund, warum Claude Mythos aktuell nicht öffentlich zugänglich ist.
Stattdessen erfolgt die Nutzung:
- nur durch ausgewählte Partner
- im Rahmen von Sicherheitsprogrammen
- zunächst zur Verteidigung von IT-Infrastruktur
Dieses Vorgehen deutet darauf hin, dass selbst der Hersteller das Risiko als erheblich einstuft.
Bedeutet das wirklich „um Welten besser“?
Die Aussage „um Welten besser“ ist zugespitzt – aber nicht unbegründet.
Faktisch belegt ist:
- signifikante Benchmark-Sprünge
- neue Fähigkeiten (Exploit-Generierung)
- strategische Einstufung als eigene Modellklasse
Nicht belegt ist:
- eine vollständige, unabhängige Validierung aller Ergebnisse
- breite Praxistests außerhalb ausgewählter Partner
- langfristige Stabilität und Sicherheit im offenen Einsatz
Fazit: Ein Wendepunkt für KI – mit Risiken
Claude Mythos markiert vermutlich einen der größten Sprünge in der Entwicklung moderner KI-Modelle.
Während Claude Opus 4.6 als leistungsstarker Allrounder gilt, verschiebt Mythos die Grenze dessen, was KI leisten kann – insbesondere im sicherheitskritischen Bereich.
Doch genau dieser Fortschritt bringt ein neues Problem mit sich:
Leistungsfähigkeit und Risiko wachsen erstmals im gleichen Tempo.
Die kommenden Monate werden zeigen, ob und wie solche Systeme kontrolliert in die breite Nutzung gelangen können.






