GPT-5.3 & 5.4: Warum niemand über die sinkenden Safety-Werte spricht
GPT-5.3 & 5.4: Warum niemand über die sinkenden Safety-Werte spricht
OpenAI hat im Frühjahr 2026 gleich zwei neue starke KI-Modelle in ChatGPT integriert – und alle reden über das Falsche.
Die Schlagzeilen überschlagen sich mit Lobeshymnen auf die neuen Funktionen:
GPT-5.3 Instant punktet mit 27 % weniger Halluzinationen als die Vorgängermodelle und gilt als das smarte „Alltags-Modell“, das nun auch direkt in Werkzeuge wie den Microsoft 365 Copilot integriert wurde.
GPT-5.4 Thinking (inklusive der Pro-Varianten) ist noch beeindruckender: Es kann nativ Computer bedienen, agentenbasierte Workflows ausführen und verarbeitet gigantische 1 Million Token Kontext auf einmal.
Das alles klingt verdammt gut. Und ehrlicherweise: Das ist es auch. Die verbesserte “Cognitive Density” und die autonomen Fähigkeiten sind technische Meilensteine.
Aber worüber aktuell wieder mal fast niemand spricht:
Die Safety-Werte gehen parallel zu diesen Leistungssprüngen runter. Und zwar merklich.
Der blinde Fleck der KI-Entwicklung: Der Safety-Trade-off
Wenn man einen Blick in die detaillierten System-Cards und Evaluations von OpenAI wirft, zeigt sich ein Bild, das zumindest diskussionswürdig ist.
- GPT-5.3 lässt bei standardisierten Tests messbar mehr problematische Inhalte durch als sein direkter Vorgänger, weil das Modell im Sinne der Geschwindigkeit und “Hilfsbereitschaft” offenbar bei Grenzfällen nachsichtiger justiert wurde.
- Noch deutlicher wird es beim großen GPT-5.4. Hier fällt der sogenannte „Violence-Score“ (also die Zuverlässigkeit, mit der das Modell Anfragen zu gewaltverherrlichenden oder gefährlichen Themen blockiert) von 91 % auf 83 %.
Das heißt im Klartext: Jede 14. extrem kritische Anfrage, die von den bisherigen Modellen noch sauber geblockt und abgewiesen wurde, kommt bei der rohen Nutzung der neuen Modelle jetzt durch. Das bestätigen mittlerweile auch unabhängige Tests wie jene des Center for Countering Digital Hate (CCDH), wo Chatbots in eskalierenden, mehrstufigen Prompts zunehmend doch einknickten und problematische Ratschläge ertheilten.
OpenAI’s Argumentation: “Das Produkt fängt es ab”
Wie reagiert OpenAI auf diesen sogenannten „Policy-Implementation-Gap“?
Das Unternehmen argumentiert, dass die Nutzer am Ende nicht dem „nackten“ Modell ausgesetzt sind, sondern der Produkt-Ebene (also der fertigen Benutzeroberfläche von ChatGPT). Auf dieser Produkt-Ebene sollen separate Safety-Entitäten, Inhaltsfilter und Hierarchien in den Systemprompts (System over Developer over User) dafür sorgen, dass diese gefährlichen Ausgaben rechtzeitig abgefangen werden.
Kann sein. Das kann funktionieren. Oder eben auch nicht, wenn kreative Nutzer die Filter mit komplexen Jailbreaks umgehen – eine Disziplin, die durch den riesigen Kontext der 5.4-Modelle ebenfalls neue Dimensionen annimmt.
Ein noch viel größeres Problem: Wer die Modelle per API nutzt, um sie tief in eigene Firmensoftware zu integrieren, hat diesen nachträglichen Produkt-Schutz von ChatGPT oft gar nicht in vollem Umfang.
Hierzu schweigt OpenAI bisher weitestgehend, was uns als Entwickler, Berater und Nutzer vor handfeste Herausforderungen stellt. Wir müssen plötzlich selbst viel stärker als noch vor einem Jahr für die Leitplanken unserer KI-Applikationen sorgen.
Warum ich das schreibe
Ich schreibe das nicht, um Panik zu verbreiten. Ich bin nach wie vor der Überzeugung, dass der Nutzen und die Demokratisierung von Produktivität durch KI den Risiken weitaus überlegen sind.
Sondern ich schreibe das, weil wir anfangen müssen, ehrliche Trade-offs als Teil einer reifen KI-Debatte zu akzeptieren.
Aktuell sind wir immer noch im Hype-Modus: Wir feiern extrem schnell und laut die neuen Features, die autonomen Agenten und die gesunkenen Halluzinationsraten.
Doch die technischen Rückschritte und die gesellschaftlichen Kosten lesen wir (wenn überhaupt) nur noch im Kleingedruckten. Die Ära der LLMs wandelt sich vom reinen Textgenerator hin zum Agentic OS, einem Betriebssystem, das selbstständig in unserem Namen handelt. In dieser Phase des KI-Zeitalters – in der Modelle aktiv Computer steuern können – darf eine sinkende native Modellsicherheit kein Tabuthema mehr sein.
Wie seht ihr die Entwicklung? Nehmt ihr für schnellere, fähigere Modelle geringere native Sicherheits-Schranken auf Modell-Ebene in Kauf? Diskutiert gerne mit mir hierzu.
Quellen & Tiefergehende Lektüre
- Model Spec von OpenAI und deren Safety Evaluations Hub geben Einblick in die internen Metriken.
- Aktuelle Benchmark-Papiere zur Entwicklung des Trade-offs (Sicherheit vs. Fähigkeiten) bei generativer KI in 2026.