Claude Mythos & Capybara: Was das Anthropic-Datenleck über die nächste KI-Generation verrät

Ende März 2026 passiert Anthropic das, was jedem Unternehmen passieren kann, das schnell wächst: Ein falsch konfiguriertes Content-Management-System macht rund 3.000 interne Dokumente öffentlich zugänglich. Darunter: Entwürfe interner Blog-Posts, Red-Teaming-Berichte, Deployment-Pläne.

Und der Name eines Modells, über das bislang niemand öffentlich gesprochen hatte.

Claude Mythos. Intern auch als Capybara geführt.

Anthropic hat den Leak gegenüber Fortune bestätigt – und dabei mehr gesagt, als man bei einem PR-Schaden-Incident erwartet hätte. Das Modell existiert. Es wird getestet. Und es ist, nach Anthropics eigener Aussage, “das fähigste Modell, das wir je gebaut haben.”

Mythos vs. Capybara: Zuerst die Namensfrage

Die öffentliche Verwirrung um die beiden Namen ist verständlich. Intern hat Anthropic offenbar beide verwendet – “Mythos” als primäre Bezeichnung, “Capybara” als Codename oder alternative Benennung für eine Subarchitektur.

Die genaue Abgrenzung ist noch nicht öffentlich geklärt. Was die Quellen beschreiben:

Claude Mythos: Das eigentliche Modell. Neue Leistungsklasse oberhalb der aktuellen Opus-Linie. Die Hierarchie würde dann lauten: Haiku → Sonnet → Opus → Mythos.
Capybara: Bezieht sich möglicherweise auf eine spezifische Architektur-Eigenschaft – nämlich persistente Memory und Cross-Session-Koordination. Ob das ein eigenständiges Modell oder ein Feature-Set innerhalb von Mythos ist, bleibt offen.

Für diesen Artikel behandle ich beides als zusammengehörige Informationen aus demselben Leak-Kontext.

Die Benchmarks: Was geleakt wurde

Hier werden die Zahlen interessant. Die geleakten Entwürfe zeigen einen Vergleich zwischen Claude Opus 4.6 und Mythos auf den wichtigsten Benchmarks:

SWE-bench Verified – misst echte GitHub-Issue-Behebung in realen Codebases, nicht konstruierte Toy-Problems:

Opus 4.6: Low-to-mid 70s
Mythos: Mid-to-high 80s – etwa 12 bis 15 Prozentpunkte höher

Das klingt zunächst nach einer normalen Verbesserung. Es ist keine. SWE-bench ist notorisch schwer zu verbessern, weil es echte Software-Engineering-Probleme abbildet. Die Sprünge zwischen den bisherigen Modellgenerationen lagen typischerweise im einstelligen Bereich.

GPQA Diamond – Graduate-level Reasoning in Biologie, Chemie, Physik:

Opus 4.6: Mid-to-upper 70s
Mythos: Low-to-mid 80s

Bisher haben alle Frontier-Modelle auf GPQA Diamond relativ eng geclustert. Mythos schert aus diesem Cluster aus.

Terminal-Bench 2.0 – Autonome Terminal-Aufgaben, komplexe Shell-Workflows:

Mythos: über 70 Prozent – ein Wert, den bislang kein anderes Modell erreicht hat

Cybersecurity-Benchmarks: Hier ist das Bild am deutlichsten – und gleichzeitig das brisanteste. Laut den geleakten Dokumenten ist Mythos “derzeit jedem anderen KI-Modell in Cyber-Fähigkeiten weit überlegen.”

Das Cybersecurity-Problem

Das ist der Teil, der erklären dürfte, warum Anthropic so ungewöhnlich vorsichtig mit dem Rollout umgeht.

Interne Red-Teaming-Berichte stufen Mythos als “beispielloses Cybersicherheitsrisiko” ein. Das Modell soll Zero-Day-Schwachstellen mit einer Sophistizierung entdecken und ausnutzen können, die bisherige Modelle nicht erreichen.

Um das einzuordnen: Bisherige Frontier-Modelle konnten bei CTF-Challenges helfen, einfache Exploit-Patterns erkennen und grundlegende Sicherheitslücken in Code identifizieren. Das war nützlich für Defender, aber keine qualitative Verschiebung des Bedrohungsbilds.

Was Anthropic über Mythos beschreibt, ist etwas anderes. Das Unternehmen formuliert es selbst so: Man erwarte “eine kommende Welle von Modellen, die Schwachstellen auf Wegen ausnutzen können, die die Bemühungen von Verteidigern bei weitem übersteigen.”

Das ist eine bemerkenswert direkte Aussage für ein Unternehmen, das gerade ein Datenleck hat.

Die Konsequenz für den Rollout:

Erster Zugang ausschließlich für Kunden im Bereich Cyber-Verteidigung
Schrittweise API-Erweiterung, keine sofortige öffentliche Verfügbarkeit
Kein allgemeiner Zugang zum aktuellen Zeitpunkt

Aus meiner Sicht ist das die richtige Entscheidung – auch wenn sie commercial pressure bedeutet. Ein Modell, das Zero-Day-Exploits auf diesem Niveau beherrscht, in die Hände von beliebigen API-Kunden zu geben, bevor Verteidiger aufgeholt haben, wäre fahrlässig.

Capybara als Architektur-Shift: Persistente Memory und Execution-Loop

Der zweite Teil des Leaks – die als “Capybara” bezeichneten Features – ist konzeptionell mindestens so interessant wie die Benchmark-Zahlen.

Was beschrieben wird, ist ein Paradigmenwechsel in der Art, wie LLM-Agenten arbeiten.

Bisheriges Modell: Interaction-Loop. Jede Session beginnt neu. Kontext muss manuell aufgebaut werden. Der Agent “weiß” nach einem Gespräch nichts mehr von dem, was er getan hat.

Capybara-Architektur: Execution-Loop. Persistente Memory über Sessions hinweg. Der Agent koordiniert Workflows über Zeiträume – nicht über einzelne Prompts. Ziele bleiben erhalten, ohne dass der Mensch bei jeder Session von vorne anfängt.

Das klingt abstrakt. Konkret bedeutet es:

Ein Agent, der einen Software-Delivery-Prozess koordiniert, würde sich erinnern: “Dieses Ticket hat technische Abhängigkeit X. Ich habe beim letzten Mal festgestellt, dass Team Y dafür gebraucht wird. Und der Deployment-Slot ist am Donnerstag.” – Ohne dass der Nutzer das jedes Mal erneut einbringen muss.

Das ist der Unterschied zwischen einem Assistenten, der antwortet, und einem Assistenten, der plant.

Claude Code 2.1.76: Der autonome Entwickleragent

Parallel zum Mythos-Leak ist noch etwas anderes herausgekommen: Details zu Claude Code 2.1.76 – und die lesen sich wie eine stille Revolution für Entwickler-Workflows.

Die neuen Features:

/loop-Command: Persistente Hintergrundausführung von Tasks. Claude arbeitet weiter, auch wenn der Nutzer nicht aktiv im Chat ist.
Computer Use & Remote Control: Direkte Desktop-Interaktion auf dem Mac. Claude kann GUIs bedienen, nicht nur Terminal.
Mobile Remote Management: Kontrolle über Browser oder Smartphone. Einen laufenden Agenten unterwegs überwachen und steuern.
Voice Mode: 20 Sprachen, Hands-free-Pair-Programming.

Der /loop-Command ist das Interessanteste davon. Er macht aus Claude Code keinen Autocomplete-Assistenten mehr, sondern einen Agenten, der im Hintergrund autonom Aufgaben abarbeitet – und Rückfragen stellt, wenn er nicht weiterkommt.

In Kombination mit der Capybara-Memory-Architektur ergibt sich ein System, das sich nicht nur an den aktuellen Task, sondern an die Projekt-Historie erinnert.

Was das für Enterprise-Nutzung bedeutet

Ich baue KI-Automatisierungen für Enterprise-Kunden. Was mich an diesem Leak am meisten interessiert, sind nicht die Benchmark-Zahlen – es ist die Systemarchitektur.

Agentic Workflows werden stabiler. Das aktuelle Problem mit Multi-Step-Agenten ist Drift: Je länger ein Agent läuft, desto häufiger weicht er vom ursprünglichen Ziel ab. Persistente Memory und Cross-Session-Koordination adressieren genau das.

Codebasis-Analyse auf neuem Niveau. SWE-bench in den Mid-to-High-80s bedeutet: Mythos kann echte Engineering-Probleme in realen Codebases auf einem Niveau lösen, das heute menschliche Junior-Engineers erfordert. Das verändert, wie man Code-Review, Technical Debt Tracking und automatisierte Refactoring-Pipelines aufbaut.

Security-Tooling wird mächtiger – für beide Seiten. Ein Modell, das Zero-Day-Exploits auf Mythos-Niveau versteht, ist für defensive Security-Teams ein enormes Werkzeug. Automatisierte Vulnerability-Analyse, Threat-Modeling, Penetration-Test-Assistenz – das alles wird qualitativ besser. Die andere Seite dieser Medaille ist das, was Anthropic im Red-Teaming gefunden hat.

Meine Einschätzung

Anthropic hat mit dem Leak Kontrolle über das Narrativ verloren – und in der eigenen Reaktion mehr Transparenz gezeigt als die meisten Unternehmen in dieser Situation würden. Das verdient Anerkennung.

Die technischen Details sind real. SWE-bench in den High-80s ist kein Marketing, das sind nachprüfbare Zahlen auf einem standardisierten Benchmark. Dass Anthropic das Modell hinter einer kontrollierten Early-Access-Schranke hält, statt es sofort auszurollen, ist angesichts der Cybersecurity-Implikationen die richtige Entscheidung.

Was mich beschäftigt: Die Schere zwischen dem, was das Modell kann, und dem, was Verteidiger darauf vorbereitet sind, wird größer. Anthropic benennt das selbst. Die Frage ist, ob die Industrie – Unternehmen, Security-Teams, Regulatoren – schnell genug aufholt.

Für Enterprise-Kunden, die jetzt KI-Strategie bauen: Wer heute Automatisierungssysteme auf Basis von Opus 4.6 designed, sollte Mythos im Architektur-Backlog haben. Nicht weil man heute deployen kann. Sondern weil die Systemgrenzen, die man heute zieht, bestimmen, wie einfach oder schwierig das Upgrade in 12 Monaten wird.

Du planst KI-Automatisierung in deiner Organisation und willst wissen, wie du dich jetzt richtig aufstellst? Lass uns reden.