GPT-5.5 Funktionen: Alle Fähigkeiten des Spud-Modells im Überblick

GPT-5.5 (Spud) wurde am 23. April 2026 veröffentlicht. Alle wichtigen Funktionen im Überblick: agentisches Coding, 1M-Token-Kontextfenster, GPT-5.5 Pro, Computersteuerung, Forschung und Preise.

GPT-5.5 Funktionen: Vollständige Übersicht des OpenAI-Modells „Spud"

OpenAI hat GPT-5.5 am 23. April 2026 veröffentlicht — intern unter dem Codenamen „Spud" bekannt. Als „eine neue Klasse von Intelligenz für reale Arbeit" beschrieben, ist GPT-5.5 das leistungsstärkste und produktionsreifste Modell des Unternehmens. Dieser Leitfaden deckt alle wesentlichen Funktionen und Fähigkeiten ab.

1. Agentisches Coding — Die Kernfunktion

Die ausgeprägteste Verbesserung von GPT-5.5 gegenüber GPT-5.4 liegt im agentischen Coding — der Fähigkeit, komplexe, langfristige Software-Engineering-Aufgaben autonom zu bewältigen.

Benchmark-Ergebnisse:

Terminal-Bench 2.0: 82,7 % (vs. 75,1 % für GPT-5.4) — State-of-the-Art, übertrifft Claude Opus 4.7 mit 69,4 %
Expert-SWE (intern): 73,1 % — Aufgaben mit einer geschätzten menschlichen Bearbeitungszeit von 20 Stunden
SWE-Bench Pro: 58,6 %

In der Praxis ist GPT-5.5 besser bei:

Verstehen, warum ein System fehlschlägt und wo die Behebung ansetzen muss
Kontexterhalt über große, dateienübergreifende Systeme hinweg
Änderungen, die sich korrekt durch die gesamte Codebasis ausbreiten
Debuggen komplexer, unklarer Fehler ohne wiederholte Benutzeraufforderungen

Dan Shipper, CEO von Every, nannte es „das erste Coding-Modell, das ich genutzt habe, das wirklich konzeptionelle Klarheit besitzt."

2. 1-Millionen-Token-Kontextfenster

API-Kontextfenster: 1.000.000 Token
Codex-Kontextfenster: 400.000 Token

Dies ist eine der bedeutendsten praktischen Verbesserungen von GPT-5.5. Die Long-Context-Benchmarks verdeutlichen dies eindrucksvoll:

Kontextbereich	GPT-5.5	GPT-5.4
256K–512K	81,5 %	57,5 %
512K–1M	74,0 %	36,6 %

Im Bereich 512K–1M erzielt GPT-5.5 mehr als doppelt so hohe Genauigkeit wie GPT-5.4. Damit werden vollständige Codebase-Analysen, umfangreiche Rechtsdokumentprüfungen und mehrkapitelige Forschungssynthesen ohne Chunking praktisch umsetzbar.

3. Mehrere GPT-5.5-Varianten

GPT-5.5 (Basis)

Standardmodell für ChatGPT (Plus/Pro/Business/Enterprise) und Codex.

GPT-5.5 Pro

Variante mit höherer Genauigkeit und stärkerer Leistung bei anspruchsvollen Aufgaben:

BrowseComp: 90,1 % vs. 84,4 % (Basis)
FrontierMath Tier 4: 39,6 % vs. 35,4 % (Basis)
GeneBench: 33,2 % vs. 25,0 % (Basis)

Verfügbar für Pro-, Business- und Enterprise-Nutzer in ChatGPT; über die API zu $30 Eingabe / $180 Ausgabe pro 1 Mio. Token.

GPT-5.5 Thinking

In ChatGPT verfügbar — dieser Modus liefert „klügere und präzisere Antworten" auf schwierige Fragen durch erweitertes Schritt-für-Schritt-Denken.

GPT-5.5 Fast Mode (Codex)

1,5× schnellere Token-Generierung zu 2,5× den Standardkosten — für latenzempfindliche agentische Workflows.

4. Computersteuerung

GPT-5.5 kann Software autonom bedienen — Benutzeroberflächen navigieren, klicken, tippen und zwischen Tools wechseln, um Aufgaben abzuschließen. Es erreicht 78,7 % auf OSWorld-Verified, das misst, ob Modelle echte Computerumgebungen eigenständig bedienen können.

Das bringt GPT-5.5 näher an einen echten KI-Agenten heran, der neben einem Menschen am Computer arbeitet — und nicht nur auf Anfragen reagiert.

5. Wissensarbeit

GPT-5.5 liefert State-of-the-Art-Leistung bei professionellen Wissensaufgaben:

GDPval: 84,9 % — testet Agenten in 44 Berufsfeldern auf Wissensarbeitsqualität
Tau2-bench Telecom: 98,0 % — komplexe Kundenservice-Workflows ohne Prompt-Tuning
OfficeQA Pro: 54,1 % (vs. Claudes 43,6 %, Geminis 18,1 %)
Investment-Banking-Modellierung: 88,5 % (interner Benchmark)

Von OpenAI-Teams gemeldete Praxisanwendungen: automatisierte Geschäftsberichtserstellung (Einsparung von 5–10 Stunden/Woche), Verarbeitung von 24.771 Steuerformularen in kürzerer Zeit und Aufbau automatisierter Routing-Systeme für Kommunikation.

6. Wissenschaftliche Forschung

GPT-5.5 stellt einen echten Sprung in wissenschaftlichen Fähigkeiten dar:

GeneBench: 25,0 % (GPT-5.4: 19,0 %) — mehrstufige Genetik- und quantitative Biologieanalyse
BixBench: 80,5 % (GPT-5.4: 74,0 %) — reale Bioinformatik-Datenanalyse
FrontierMath Tier 4: 35,4 % (GPT-5.4: 27,1 %)

Bemerkenswert: Eine interne GPT-5.5-Variante half, einen neuen Beweis für Ramsey-Zahlen zu entdecken — im Lean-Beweisassistenten verifiziert — ein Meilenstein in der Kombinatorik.

7. Inferenzeffizienz

GPT-5.5 erreicht die gleiche Token-Latenz wie GPT-5.4, obwohl es deutlich leistungsfähiger ist. Wichtige technische Details:

Gemeinsam entworfen für NVIDIA GB200/GB300 NVL72-Systeme
Verbesserte Load-Balancing-Heuristiken (mit Codex entwickelt) steigerten die Token-Generierung um über 20 %
Verwendet weniger Token für die gleichen Codex-Aufgaben im Vergleich zu GPT-5.4

Für kostenbewusste Teams: Obwohl GPT-5.5 einen höheren Preis pro Token hat, führt seine Token-Effizienz oft zu vergleichbaren oder geringeren Gesamtkosten.

8. Cybersicherheitsfähigkeiten

GPT-5.5 ist OpenAIs fähigstes Cybersicherheitsmodell:

CyberGym: 81,8 % (vs. Claude Opus 4.7 mit 73,1 %)
Capture-the-Flags (intern): 88,1 %

OpenAI hat diese Fähigkeiten im Rahmen seines Preparedness Framework als „Hoch" eingestuft und strengere Kontrollen für risikoreiche Cyber-Workflows eingeführt. Ein Trusted Access for Cyber-Programm gewährt verifizierten Verteidigern erweiterten Zugang mit weniger Einschränkungen.

9. Preise und Verfügbarkeit

ChatGPT-Zugang: Plus, Pro, Business, Enterprise (kostenloses Tier beim Start ausgeschlossen)
Codex-Zugang: Plus, Pro, Business, Enterprise, Edu, Go-Pläne

API-Preise:

Modell	Eingabe	Ausgabe
gpt-5.5	$5 / 1 Mio. Token	$30 / 1 Mio. Token
gpt-5.5-pro	$30 / 1 Mio. Token	$180 / 1 Mio. Token

Batch/Flex: 50 % des Standardpreises. Priorität: 2,5× Standard.

10. GPT-5.5 über Plattformen nutzen

Über OpenAIs eigene Schnittstellen hinaus bietet Framia.pro fertige KI-Workflows auf Basis von GPT-5.5 — für Content-Erstellung, Business-Automatisierung und Forschungsaufgaben. Das ist der schnellste Weg, GPT-5.5s Fähigkeiten ohne API-Konfiguration einzusetzen.

Zusammenfassung der Hauptfunktionen

Funktion	Detail
Veröffentlichungsdatum	23. April 2026
Codename	Spud
Kontextfenster	1 Mio. Token (API), 400K (Codex)
Top-Coding-Benchmark	Terminal-Bench 2.0: 82,7 %
Top-Wissens-Benchmark	Tau2-bench Telecom: 98,0 %
Abstraktes Denken	ARC-AGI-2: 85,0 %
API-Preis	$5/$30 pro 1 Mio. Token
Pro-API-Preis	$30/$180 pro 1 Mio. Token
Varianten	Basis, Pro, Thinking, Fast Mode