GPT-5.5の機能:OpenAIの「Spud」モデルを完全解説
OpenAIは2026年4月23日、社内コードネーム「Spud」で呼ばれていたGPT-5.5をリリースしました。「実務のための新たな知性」と位置づけられるGPT-5.5は、同社史上最も高性能で実用的なモデルです。本記事では、すべての主要機能と性能を詳しく解説します。
1. エージェント型コーディング — 最大の目玉機能
GPT-5.4からの最大の進化がエージェント型コーディングです。複雑で長期にわたるソフトウェアエンジニアリングのタスクを自律的にこなす能力が大幅に向上しました。
ベンチマーク結果:
- Terminal-Bench 2.0: 82.7%(GPT-5.4は75.1%)— 最高水準、Claude Opus 4.7の69.4%を上回る
- Expert-SWE(社内): 73.1% — 人間が平均20時間かかるタスク
- SWE-Bench Pro: 58.6%
実際に、GPT-5.5は以下の点で優れています:
- システムの問題箇所と修正ポイントを的確に把握
- 大規模なマルチファイルシステムを横断したコンテキスト保持
- コードベース全体に正しく伝播する変更の適用
- 繰り返しのプロンプトなしに複雑で曖昧なバグをデバッグ
Every社のCEO、Dan Shipperはこれを「本当に概念的な明晰さを持つ、初めて使ったコーディングモデル」と評しました。
2. 100万トークンのコンテキストウィンドウ
APIコンテキストウィンドウ:1,000,000トークン
Codexコンテキストウィンドウ:400,000トークン
これはGPT-5.5の最も重要な実用上の進化の一つです。長文コンテキストのベンチマーク結果がそれを証明しています:
| コンテキスト範囲 | GPT-5.5 | GPT-5.4 |
|---|---|---|
| 256K〜512K | 81.5% | 57.5% |
| 512K〜1M | 74.0% | 36.6% |
512K〜1Mの範囲では、GPT-5.5の精度はGPT-5.4の2倍以上です。コードベース全体の解析、長大な法的文書のレビュー、複数章にわたる研究のまとめが、チャンクなしで現実的に行えます。
3. 複数のGPT-5.5バリアント
GPT-5.5(ベース)
ChatGPT(Plus/Pro/Business/Enterprise)およびCodex向けの標準モデル。
GPT-5.5 Pro
高精度バリアントで、要求の高いタスクでより優れたパフォーマンスを発揮します:
- BrowseComp:90.1%(ベースは84.4%)
- FrontierMath Tier 4:39.6%(ベースは35.4%)
- GeneBench:33.2%(ベースは25.0%)
ChatGPTのPro・Business・Enterpriseユーザー向け、APIでは100万トークンあたり入力$30/出力$180で利用可能。
GPT-5.5 Thinking
ChatGPTで提供され、高度な連鎖推論を使って難しい問題に「より賢く簡潔な回答」を生成するモード。
GPT-5.5 ファストモード(Codex)
標準コストの2.5倍、トークン生成速度が1.5倍 — レイテンシーを重視するエージェントワークフロー向け。
4. コンピュータ操作
GPT-5.5はソフトウェアを自律的に操作できます — インターフェースのナビゲーション、クリック、入力、ツール間の移動を行い、タスクを完結させます。OSWorld-Verifiedで**78.7%**を達成し、モデルが現実のコンピュータ環境を独立して操作できるかを測定しています。
これにより、GPT-5.5はプロンプトに応答するだけでなく、人間と並んでコンピュータを操作する真のAIエージェントとしての機能に近づいています。
5. ナレッジワーク
GPT-5.5はプロフェッショナルなナレッジタスクで最高水準のパフォーマンスを発揮します:
- GDPval: 84.9% — 44職種にわたるナレッジワーク品質を評価
- Tau2-bench Telecom: 98.0% — プロンプトチューニングなしの複雑なカスタマーサービスワークフロー
- OfficeQA Pro: 54.1%(Claudeの43.6%、Geminiの18.1%を上回る)
- 投資銀行モデリング: 88.5%(社内ベンチマーク)
OpenAIチームが報告する実際の活用例:自動ビジネスレポート生成(週5〜10時間の節約)、24,771件の税務書類の短期間処理、コミュニケーションの自動ルーティングシステムの構築。
6. 科学研究
GPT-5.5は科学的能力において真の飛躍を遂げています:
- GeneBench: 25.0%(GPT-5.4:19.0%)— 多段階の遺伝学・定量生物学解析
- BixBench: 80.5%(GPT-5.4:74.0%)— 実世界のバイオインフォマティクスデータ解析
- FrontierMath Tier 4: 35.4%(GPT-5.4:27.1%)
特筆すべき点として、社内GPT-5.5バリアントがラムゼー数に関する新しい証明を発見し、Lean証明アシスタントで検証されました — 組合せ論における歴史的な成果です。
7. 推論効率
GPT-5.5はGPT-5.4と同等のトークンあたりレイテンシーを維持しながら、大幅に高い性能を実現しています。主なエンジニアリング詳細:
- NVIDIA GB200/GB300 NVL72システム向けに共同設計
- Codexと共同開発した改善された負荷分散ヒューリスティックがトークン生成を20%以上向上
- GPT-5.4と比較して同じCodexタスクにより少ないトークンを使用
コストを重視するチームへ:GPT-5.5はトークンあたりの価格は高いものの、トークン効率のおかげで総コストが同等か低くなることがよくあります。
8. サイバーセキュリティ機能
GPT-5.5はOpenAI史上最も高性能なサイバーセキュリティモデルです:
- CyberGym: 81.8%(Claude Opus 4.7の73.1%を上回る)
- Capture-the-Flags(社内): 88.1%
OpenAIはこれらの機能を準備フレームワーク(Preparedness Framework)の下で**「高」**リスクに分類し、高リスクなサイバーワークフローの管理を強化しました。Trusted Access for Cyberプログラムを通じて、認証済みの防衛担当者に制限を緩和した拡張アクセスを提供しています。
9. 料金と提供状況
ChatGPTアクセス: Plus、Pro、Business、Enterprise(リリース時は無料プラン除外)
Codexアクセス: Plus、Pro、Business、Enterprise、Edu、Goプラン
API料金:
| モデル | 入力 | 出力 |
|---|---|---|
| gpt-5.5 | $5 / 100万トークン | $30 / 100万トークン |
| gpt-5.5-pro | $30 / 100万トークン | $180 / 100万トークン |
バッチ/Flex:標準の50%。優先:標準の2.5倍。
10. プラットフォームを通じたGPT-5.5へのアクセス
OpenAIのネイティブインターフェース以外にも、**Framia.pro**はGPT-5.5を活用した既製AIワークフローを提供しています — コンテンツ作成、業務自動化、リサーチタスクに対応。API設定不要でGPT-5.5の機能をすぐに活用できる最速の方法です。
主要機能のまとめ
| 機能 | 詳細 |
|---|---|
| リリース日 | 2026年4月23日 |
| コードネーム | Spud |
| コンテキストウィンドウ | 100万トークン(API)、40万(Codex) |
| トップコーディングベンチマーク | Terminal-Bench 2.0:82.7% |
| トップナレッジベンチマーク | Tau2-bench Telecom:98.0% |
| 抽象的推論 | ARC-AGI-2:85.0% |
| API料金 | $5/$30 per 100万トークン |
| Pro API料金 | $30/$180 per 100万トークン |
| バリアント | ベース、Pro、Thinking、ファストモード |