GPT-5.5 Funktionen: Vollständige Übersicht des OpenAI-Modells „Spud"
OpenAI hat GPT-5.5 am 23. April 2026 veröffentlicht — intern unter dem Codenamen „Spud" bekannt. Als „eine neue Klasse von Intelligenz für reale Arbeit" beschrieben, ist GPT-5.5 das leistungsstärkste und produktionsreifste Modell des Unternehmens. Dieser Leitfaden deckt alle wesentlichen Funktionen und Fähigkeiten ab.
1. Agentisches Coding — Die Kernfunktion
Die ausgeprägteste Verbesserung von GPT-5.5 gegenüber GPT-5.4 liegt im agentischen Coding — der Fähigkeit, komplexe, langfristige Software-Engineering-Aufgaben autonom zu bewältigen.
Benchmark-Ergebnisse:
- Terminal-Bench 2.0: 82,7 % (vs. 75,1 % für GPT-5.4) — State-of-the-Art, übertrifft Claude Opus 4.7 mit 69,4 %
- Expert-SWE (intern): 73,1 % — Aufgaben mit einer geschätzten menschlichen Bearbeitungszeit von 20 Stunden
- SWE-Bench Pro: 58,6 %
In der Praxis ist GPT-5.5 besser bei:
- Verstehen, warum ein System fehlschlägt und wo die Behebung ansetzen muss
- Kontexterhalt über große, dateienübergreifende Systeme hinweg
- Änderungen, die sich korrekt durch die gesamte Codebasis ausbreiten
- Debuggen komplexer, unklarer Fehler ohne wiederholte Benutzeraufforderungen
Dan Shipper, CEO von Every, nannte es „das erste Coding-Modell, das ich genutzt habe, das wirklich konzeptionelle Klarheit besitzt."
2. 1-Millionen-Token-Kontextfenster
API-Kontextfenster: 1.000.000 Token
Codex-Kontextfenster: 400.000 Token
Dies ist eine der bedeutendsten praktischen Verbesserungen von GPT-5.5. Die Long-Context-Benchmarks verdeutlichen dies eindrucksvoll:
| Kontextbereich | GPT-5.5 | GPT-5.4 |
|---|---|---|
| 256K–512K | 81,5 % | 57,5 % |
| 512K–1M | 74,0 % | 36,6 % |
Im Bereich 512K–1M erzielt GPT-5.5 mehr als doppelt so hohe Genauigkeit wie GPT-5.4. Damit werden vollständige Codebase-Analysen, umfangreiche Rechtsdokumentprüfungen und mehrkapitelige Forschungssynthesen ohne Chunking praktisch umsetzbar.
3. Mehrere GPT-5.5-Varianten
GPT-5.5 (Basis)
Standardmodell für ChatGPT (Plus/Pro/Business/Enterprise) und Codex.
GPT-5.5 Pro
Variante mit höherer Genauigkeit und stärkerer Leistung bei anspruchsvollen Aufgaben:
- BrowseComp: 90,1 % vs. 84,4 % (Basis)
- FrontierMath Tier 4: 39,6 % vs. 35,4 % (Basis)
- GeneBench: 33,2 % vs. 25,0 % (Basis)
Verfügbar für Pro-, Business- und Enterprise-Nutzer in ChatGPT; über die API zu $30 Eingabe / $180 Ausgabe pro 1 Mio. Token.
GPT-5.5 Thinking
In ChatGPT verfügbar — dieser Modus liefert „klügere und präzisere Antworten" auf schwierige Fragen durch erweitertes Schritt-für-Schritt-Denken.
GPT-5.5 Fast Mode (Codex)
1,5× schnellere Token-Generierung zu 2,5× den Standardkosten — für latenzempfindliche agentische Workflows.
4. Computersteuerung
GPT-5.5 kann Software autonom bedienen — Benutzeroberflächen navigieren, klicken, tippen und zwischen Tools wechseln, um Aufgaben abzuschließen. Es erreicht 78,7 % auf OSWorld-Verified, das misst, ob Modelle echte Computerumgebungen eigenständig bedienen können.
Das bringt GPT-5.5 näher an einen echten KI-Agenten heran, der neben einem Menschen am Computer arbeitet — und nicht nur auf Anfragen reagiert.
5. Wissensarbeit
GPT-5.5 liefert State-of-the-Art-Leistung bei professionellen Wissensaufgaben:
- GDPval: 84,9 % — testet Agenten in 44 Berufsfeldern auf Wissensarbeitsqualität
- Tau2-bench Telecom: 98,0 % — komplexe Kundenservice-Workflows ohne Prompt-Tuning
- OfficeQA Pro: 54,1 % (vs. Claudes 43,6 %, Geminis 18,1 %)
- Investment-Banking-Modellierung: 88,5 % (interner Benchmark)
Von OpenAI-Teams gemeldete Praxisanwendungen: automatisierte Geschäftsberichtserstellung (Einsparung von 5–10 Stunden/Woche), Verarbeitung von 24.771 Steuerformularen in kürzerer Zeit und Aufbau automatisierter Routing-Systeme für Kommunikation.
6. Wissenschaftliche Forschung
GPT-5.5 stellt einen echten Sprung in wissenschaftlichen Fähigkeiten dar:
- GeneBench: 25,0 % (GPT-5.4: 19,0 %) — mehrstufige Genetik- und quantitative Biologieanalyse
- BixBench: 80,5 % (GPT-5.4: 74,0 %) — reale Bioinformatik-Datenanalyse
- FrontierMath Tier 4: 35,4 % (GPT-5.4: 27,1 %)
Bemerkenswert: Eine interne GPT-5.5-Variante half, einen neuen Beweis für Ramsey-Zahlen zu entdecken — im Lean-Beweisassistenten verifiziert — ein Meilenstein in der Kombinatorik.
7. Inferenzeffizienz
GPT-5.5 erreicht die gleiche Token-Latenz wie GPT-5.4, obwohl es deutlich leistungsfähiger ist. Wichtige technische Details:
- Gemeinsam entworfen für NVIDIA GB200/GB300 NVL72-Systeme
- Verbesserte Load-Balancing-Heuristiken (mit Codex entwickelt) steigerten die Token-Generierung um über 20 %
- Verwendet weniger Token für die gleichen Codex-Aufgaben im Vergleich zu GPT-5.4
Für kostenbewusste Teams: Obwohl GPT-5.5 einen höheren Preis pro Token hat, führt seine Token-Effizienz oft zu vergleichbaren oder geringeren Gesamtkosten.
8. Cybersicherheitsfähigkeiten
GPT-5.5 ist OpenAIs fähigstes Cybersicherheitsmodell:
- CyberGym: 81,8 % (vs. Claude Opus 4.7 mit 73,1 %)
- Capture-the-Flags (intern): 88,1 %
OpenAI hat diese Fähigkeiten im Rahmen seines Preparedness Framework als „Hoch" eingestuft und strengere Kontrollen für risikoreiche Cyber-Workflows eingeführt. Ein Trusted Access for Cyber-Programm gewährt verifizierten Verteidigern erweiterten Zugang mit weniger Einschränkungen.
9. Preise und Verfügbarkeit
ChatGPT-Zugang: Plus, Pro, Business, Enterprise (kostenloses Tier beim Start ausgeschlossen)
Codex-Zugang: Plus, Pro, Business, Enterprise, Edu, Go-Pläne
API-Preise:
| Modell | Eingabe | Ausgabe |
|---|---|---|
| gpt-5.5 | $5 / 1 Mio. Token | $30 / 1 Mio. Token |
| gpt-5.5-pro | $30 / 1 Mio. Token | $180 / 1 Mio. Token |
Batch/Flex: 50 % des Standardpreises. Priorität: 2,5× Standard.
10. GPT-5.5 über Plattformen nutzen
Über OpenAIs eigene Schnittstellen hinaus bietet Framia.pro fertige KI-Workflows auf Basis von GPT-5.5 — für Content-Erstellung, Business-Automatisierung und Forschungsaufgaben. Das ist der schnellste Weg, GPT-5.5s Fähigkeiten ohne API-Konfiguration einzusetzen.
Zusammenfassung der Hauptfunktionen
| Funktion | Detail |
|---|---|
| Veröffentlichungsdatum | 23. April 2026 |
| Codename | Spud |
| Kontextfenster | 1 Mio. Token (API), 400K (Codex) |
| Top-Coding-Benchmark | Terminal-Bench 2.0: 82,7 % |
| Top-Wissens-Benchmark | Tau2-bench Telecom: 98,0 % |
| Abstraktes Denken | ARC-AGI-2: 85,0 % |
| API-Preis | $5/$30 pro 1 Mio. Token |
| Pro-API-Preis | $30/$180 pro 1 Mio. Token |
| Varianten | Basis, Pro, Thinking, Fast Mode |