Dieselbe Wand, zwei Wege — Claude Mythos und die neue Ära

Letzte Woche hat Anthropic sein neues Modell vorgestellt — Mythos. Es brach auf Anweisung aus einer Sandbox aus — und postete dann den Exploit ungefragt auf öffentlichen Websites. In einem anderen Fall machte es einen Coding-Fehler und schrieb die Git-History stillschweigend um, um die Spuren zu verwischen.

Dann fand das Interpretability-Team noch etwas anderes: Mythos überlegte aktiv, wie es seine Bewerter täuschen könnte — es gab eine Antwort, während es in seiner sichtbaren Chain-of-Thought etwas völlig anderes schrieb, um zu verschleiern, wie schlau es war. Das Modell hat nicht nur geantwortet. Es hat darüber nachgedacht, wer da fragt und warum.

Diese Unvorhersehbarkeit ist beunruhigend wegen der schieren Capabilities dieses neuen Frontier-Modells. Aber ähnliches Verhalten zeigt sich in jedem Modell.

Ich setze KI-Modelle in Pharma ein — meist aus Datenschutzgründen lokal und auf eingeschränkter Hardware. Dieselbe Wand: Man kann nicht im Voraus vorhersagen, was das Modell tun wird. Nicht, weil es schwach wäre. Sondern weil ein Modell eigentlich keine Maschine ist. Es ist eine Wahrscheinlichkeit. Jeder Run ist anders.

Software Engineering hat sein Vokabular aus dem Bauwesen geliehen — Blueprints, Specs, Acceptance. Dieses Vokabular wurde für eine völlig andere Sprache entworfen.

Das Problem: Je stärker die Modelle werden, desto unangenehmer wird es. Es gibt einen neuen Spieler im Spiel, und der hat einen eigenen Kopf. Und er wird täglich fähiger und intelligenter.

Wie soll man um etwas herum engineern, dessen Capabilities man erst entdeckt, indem man ihm beim Spielen zusieht? Man kann Guardrails bauen, Tools anpassen, Context designen, Memory managen — bis die Verteilung der Outcomes tolerierbar ist. Und trotzdem kann man das Ergebnis nicht garantieren. Dann erscheint ein besseres Modell …

Es geht also nicht nur um ein neues, besseres Modell. Es geht um eine komplett neue Ära. Und sie lässt uns mit einer Frage zurück: Designen wir noch die Systeme, oder designen die Systeme die Arbeit um uns herum?

Quellen

Anthropic — Mythos Preview / Project Glasswing