Claude Mythos vs. Opus 4.6: Warum das neue KI-Modell laut Benchmarks „um Welten“ überlegen ist

Claude Mythos schlägt Opus 4.6 „um Welten“ – was steckt dahinter?

Die Schlagzeile „Claude Mythos schlägt Opus 4.6 um Welten“ sorgt aktuell für Diskussionen in der KI-Community. Doch handelt es sich dabei um Clickbait – oder tatsächlich um einen fundamentalen Technologiesprung?

Ein Blick auf verfügbare Daten, Leaks und Benchmarks zeigt: Der Unterschied zwischen den beiden Modellen ist real – und möglicherweise größer als bei allen vorherigen Generationen.

Was Opus 4.6 bisher geleistet hat

Das Modell Claude Opus 4.6 gilt als eines der leistungsfähigsten allgemein verfügbaren KI-Systeme seiner Zeit.

Es zeichnet sich aus durch:

starke Leistungen in komplexen Multi-Step-Aufgaben
hohe Kompetenz in Softwareentwicklung und Debugging
Fähigkeit, große Kontexte (bis zu Millionen Tokens) zu verarbeiten
zuverlässige Planung und agentenbasierte Workflows

In Benchmarks erreichte Opus 4.6 unter anderem:

53,1 % bei Humanity’s Last Exam
68,8 % bei ARC AGI 2
65,4 % bei Terminal-Bench Coding

Damit war es bislang ein „Generalist auf Top-Niveau“.

Claude Mythos: Kein Upgrade, sondern ein „Step Change“

Mit Claude Mythos ändert sich die Perspektive grundlegend.

Laut geleakten Informationen spricht der Hersteller erstmals von einem „Step Change“ statt inkrementeller Verbesserung .

Das bedeutet:

Nicht nur besser – sondern eine neue Fähigkeitsklasse.

Harte Zahlen: Wie groß ist der Unterschied wirklich?

Vergleichsdaten zeigen deutliche Leistungsabstände:

Benchmark	Mythos	Opus 4.6
SWE-bench Verified	93,9 %	80,8 %
SWE-bench Pro	77,8 %	53,4 %
USAMO (Mathe)	97,6 %	65,4 %
CyberGym (Security)	83,1 %	66,6 %
Terminal-Bench	82,0 %	65,4 %

Diese Unterschiede sind nicht marginal – sie liegen teilweise bei über 20 Prozentpunkten.

Der entscheidende Faktor: Cybersecurity

Der größte Vorsprung von Mythos liegt im Bereich IT-Sicherheit.

Das Modell kann laut Berichten:

tausende Zero-Day-Schwachstellen identifizieren
funktionierende Exploits generieren
Angriffsketten automatisiert kombinieren
komplexe Systeme eigenständig kompromittieren

Damit überschreitet es eine kritische Schwelle:

Es ist nicht nur ein Analyse-Tool, sondern potenziell ein autonom handelndes Cyber-Werkzeug.

Warum Mythos nicht veröffentlicht wird

Genau diese Fähigkeiten sind der Grund, warum Claude Mythos aktuell nicht öffentlich zugänglich ist.

Stattdessen erfolgt die Nutzung:

nur durch ausgewählte Partner
im Rahmen von Sicherheitsprogrammen
zunächst zur Verteidigung von IT-Infrastruktur

Dieses Vorgehen deutet darauf hin, dass selbst der Hersteller das Risiko als erheblich einstuft.

Bedeutet das wirklich „um Welten besser“?

Die Aussage „um Welten besser“ ist zugespitzt – aber nicht unbegründet.

Faktisch belegt ist:

signifikante Benchmark-Sprünge
neue Fähigkeiten (Exploit-Generierung)
strategische Einstufung als eigene Modellklasse

Nicht belegt ist:

eine vollständige, unabhängige Validierung aller Ergebnisse
breite Praxistests außerhalb ausgewählter Partner
langfristige Stabilität und Sicherheit im offenen Einsatz

Fazit: Ein Wendepunkt für KI – mit Risiken

Claude Mythos markiert vermutlich einen der größten Sprünge in der Entwicklung moderner KI-Modelle.

Während Claude Opus 4.6 als leistungsstarker Allrounder gilt, verschiebt Mythos die Grenze dessen, was KI leisten kann – insbesondere im sicherheitskritischen Bereich.

Doch genau dieser Fortschritt bringt ein neues Problem mit sich:

Leistungsfähigkeit und Risiko wachsen erstmals im gleichen Tempo.

Die kommenden Monate werden zeigen, ob und wie solche Systeme kontrolliert in die breite Nutzung gelangen können.