OpenAIのGPT-5.5が登場——「じゃがいも」どころか、Terminal-Bench 2.0でClaude Mythos Previewを僅差で上回る

VentureBeat / 2026/4/24

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • OpenAIはGPT-5.5を正式に発表し、一般提供されるLLMとしては自社のこれまでで最も強力だと位置付けるとともに、ベンチマークではAnthropicのClaude Mythos Previewをわずかに上回った(ほぼ同点)と主張しています。
  • 同社はGPT-5.5がコーディングや「PC作業」で大きな改善をもたらし、さらに科学研究などの業務ボトルネックにまで効果があるほか、ユーザーの指示が少なくても性能を発揮すると説明しています。
  • OpenAIはGPT-5.5を、AIがOSや業務用ソフトウェアスタックと相互作用する仕組みの大幅な再設計だと述べ、タスクが曖昧な場合でも直感的に進められることを目指しています。
  • GPT-5.5は標準のGPT-5.5と、より高い精度と厳密な推論に向けた専用ロジックを備えるGPT-5.5 Proの2つの形で提供され、法務調査・データサイエンス・高度なビジネス分析などの重要領域を対象にしています。
  • 価格と提供方針では、APIコストが新後継の半額のGPT-5.4も当面利用可能である一方、GPT-5.5が移行先となることを示しています。

何カ月にもわたる噂と、OpenAIがChatGPTおよびアプリケーション・プログラミング・インターフェース(API)を通じて使うための、より強力な新しいAI大規模言語モデルを開発しているという報道—同社内部では仮コードネーム「Spud」とされている—を経て、OpenAIは本日、より正式な名称GPT-5.5として最新の提供を発表しました。

そしておそらく誰も驚かないでしょうが、このモデルは言葉の侮蔑的な意味で「ポテト」などではまったくありません。GPT-5.5は、一般に利用可能なLLMにおいてOpenAIが主導権を取り戻し、ライバルであるAnthropicおよびGoogleの最新の公開提供を先行するだけでなく、1つのベンチマーク(実質的に統計的同点)では、非公開のAnthropic Claude Mythos Previewモデルをわずかに上回っています。

「コーディングに関して、ベンチマークで測っても、信頼できるパートナーから得たフィードバックや、私たち自身の経験に基づいても、これまでで間違いなく最強のモデルです」と、本日ローンチ前のジャーナリストとのビデオ通話の中で、OpenAIのリサーチ担当VPであるアメリア・“ミア”・グレーズは説明しました。

OpenAIはGPT-5.5を、知能がコンピューターのOSおよびプロ向けソフトウェアのスタックとどのように相互作用するかの、根本的な再設計だと位置づけています。

「このモデルで本当に特別なのは、より少ないガイダンスでどれだけ多くのことができるかです」と、同じ通話の中でOpenAI共同創業者兼社長のグレッグ・ブロックマンは述べました。「使うのがずっと直感的です。曖昧な問題を見ても、次に何が起きるべきかを考え出せます。」

ブロックマンはそのうえで、ユーザーがGPT-5.5を使うことで、OpenAIの従来の最先端モデルであるGPT-5.4と比べて向上を期待できる領域を強調しました。なおGPT-5.4は引き続き利用可能で(現時点では)、新しい後継のAPIコストの半額でユーザーや企業が利用できます。

「GPT-5.5はコーディングにおいて非常に優秀です」とブロックマンは述べました。「さらに、より幅広いコンピューター作業、コンピューターの利用、科学研究——こうした、非常に知的なボトルネックになるような用途でも素晴らしいです。」

OpenAI CEO兼共同創業者のサム・アルトマンも、Xでの投稿でローンチと同社の哲学について言及し、一部として「私たちは、ユーザーが最高のテクノロジーにアクセスでき、そして誰もが同じ機会を持てるようにしたいのです」と書いています。

このモデルは2つのバリアントで提供されます。GPT-5.5とGPT-5.5 Proで、後者は強化された精度と、最も厳しい認知的要求を処理するための専門化されたロジックによって区別されます。

標準版は汎用的な知能タスクのための多用途なフラッグシップとして機能する一方、Proモデルは、精度が何よりも重要な法務調査、データサイエンス、先進的なビジネス・アナリティクスといった、高リスクな環境向けに特化して設計されています。このプレミアムティアでは、より包括的で、かつより適切に構造化された回答が明確に得られます。複雑で多段階のワークフロー中も質の高いパフォーマンスを確実にするための、専門的なレイテンシ最適化により支えられています。

残念ながらサードパーティのソフトウェア開発者にとっては、GPT-5.5でもGPT-5.5 ProでもAPIアクセスはまだ利用できず、同社の発表ブログ記事によれば「非常に近いうちに」提供される予定です。

「APIの提供には異なるセーフガードが必要であり、規模に応じて安全かつセキュアに提供するための安全性とセキュリティ要件について、パートナーや顧客と密に連携して取り組んでいます」とOpenAIは書いています。

当面の間、GPT-5.5はChatGPT Plus(月額$20)、Pro(月額$100〜$200)、Business、Enterpriseの有料サブスクライバーのみで利用可能です。GPT-5.5 ProはProティア以上で利用開始となります。

エージェンシーへの重点

GPT-5.5の中核には、「エージェント的」な性能への重点があります。具体的には、コーディング、コンピューターの利用、科学研究においてです。

先代モデルと異なり、しばしば「誤った道筋(hallucinating)」を避けるために、細かなステップごとのプロンプトが必要だったのに対して、GPT-5.5は、面倒で多部構成のタスクを自律的に処理できるように設計されています。

オンラインで調査すること、複雑なコードベースのデバッグを行うこと、そして人の介入なしに文書とスプレッドシートをまたいで作業を進めることに強みを発揮します。

最も大きな技術的飛躍の一つは、モデルの効率性です。大規模モデルは通常、レイテンシの増加に悩まされがちですが、GPT-5.5は知能の水準をより高く保ちながら、トークンあたりのレイテンシで前のGPT-5.4と同等を達成しています。

これは、ハードウェアとソフトウェアの共同設計(co-design)によって実現されました。OpenAIは、NVIDIA GB200およびGB300 NVL72システム上でGPT-5.5を提供し、GPUコア間での作業の分割とバランスを取るために、AI自身によって書かれたカスタムのヒューリスティック・アルゴリズムを活用しました。

この最適化により、トークン生成速度が20%以上向上したと報じられています。高リスクな推論のためのChatGPTの「GPT-5.5 Thinking」モードでは、応答する前に自身の仮定を検証するための、より多くの内部「計算時間」をモデルに与えることで、より賢く、より簡潔な回答を提供します。

この能力は、モデルの「Expert-SWE」へのパフォーマンスにおいて特に顕著に表れます。Expert-SWEは、長期にわたるコーディング課題を対象としたOpenAIの社内ベンチマークで、中央値の人間の完了時間は20時間です。GPT-5.5はこの指標でGPT-5.4を大きく上回りつつ、必要なトークン数は大幅に少なく済んでいます。

ベンチマークは、OpenAIがClaude Opus 4.7よりも(ただし未公開のMythosは依然として上回るものの)最も強力な公開LLMで主導権を取り戻したことを示す

米国製の先端モデルの市場は、OpenAI、Anthropic、Googleの間でますますきつい競争になっています。

文字通り1週間前の同じ日付に、OpenAIのライバルAnthropicがOpus 4.7をリリースしました。これは同社の最も強力な一般公開モデルで、公表され、第三者のベンチマークテストのうち自社がリードしている件数の観点でリーダーボードを奪い返しました。

しかし今日、GPT-5.5はそれを上回り、さらにAnthropicの大きく制限された、より強力なモデルであるClaude Mythos Previewも、たとえ1つのベンチマークTerminal-Bench 2.0だけだとしても上回りました。これは「サンドボックス化されたターミナル環境で、モデルがタスクをナビゲートして完了する能力」をテストするものです。

GPT-5.5はTerminal-Bench 2.0で82.7%の精度を達成し、Opus 4.7(69.4%)を大きく上回り、Mythos Preview(82.0%)もわずかに上回りました。

ただし、ツールなしでの学際的推論では、状況はもっと競争的です。ツールなしのHumanity's Last Exam で、GPT-5.5 Proは43.1%を獲得し、Opus 4.7(46.9%)およびMythos Preview(56.8%)に後れを取っています。

Benchmark

GPT-5.5

Claude Opus 4.7

Gemini 3.1 Pro

Mythos Preview*

Terminal-Bench 2.0

82.7

69.4

68.5

82.0

Expert-SWE(Internal)

73.1

GDPval(wins or ties)

84.9

80.3

67.3

OSWorld-Verified

78.7

78.0

79.6

Toolathlon

55.6

48.8

BrowseComp

84.4

79.3

85.9

86.9

FrontierMath Tier 1–3

51.7

43.8

36.9

FrontierMath Tier 4

35.4

22.9

16.7

CyberGym

81.8

73.1

83.1

Tau2-bench Telecom(オリジナルのプロンプト)

98.0

OfficeQA Pro

54.1

43.6

18.1

Investment Banking Modeling Tasks(内部)

88.5

MMMU Pro(ツールなし)

81.2

80.5

MMMU Pro(ツールあり)

83.2

GeneBench

25.0

BixBench

80.5

Capture-the-Flagsチャレンジタスク(内部)

88.1

ARC-AGI-2(Verified)

85.0

75.8

77.1

SWE-bench Pro(Public)

58.6

64.3

54.2

77.8

これは、OpenAIが「コンピュータ利用」や「エージェンシー」で勝っている一方で、他のモデルが純粋なゼロショットの学術知識では優位を保っている可能性があることを示唆しています。

重要なのは、Mythos Previewは一般提供される製品ではないという点です。Anthropicは、サイバーセキュリティ上のリスクが高いため、これを戦略的な防御資産として分類しており、信頼できる限られたパートナーや政府機関に対してのみアクセスを制限しています。

Mythosが幅広い商用利用の対象外であるため、主な市場競争はGPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7の間に残ります。

つまり、一般の人がアクセスできるモデルに限ると、GPT-5.5はOpenAIとして王座を奪い返し、Claude Opus 4.7の4、Google Gemini 3.1 Proの2に対して、14のベンチマークで最先端(state-of-the-art)を達成しています。

GPT-5.5は、エージェント型のコンピュータ利用、経済の知識ワーク(GDPval)、専門的なサイバーセキュリティ(CyberGym)、複雑な数学(Frontier Math)で優位に立っています。

対照的に、Claude Opus 4.7は、ツールなしでのソフトウェアエンジニアリングおよび推論でリードし、Gemini 3.1 Proは3つのカテゴリでリードしています。具体的には、学術的な推論と財務分析において特に優れています。

ユーザーのコストが増加

知能の向上には、大幅な価格上昇が伴います。これは、モデルの一般公開に先立ってOpenAIが共有した資料によれば、API開発者向けの話です。

OpenAIは、旗艦モデルについて、前世代と比べて実質的に参入価格を倍増させ、さらにそこから最先端のバリアントであるGPT-5.5 Proでは、再び2倍にしています:

モデル

入力価格(1Mトークンあたり)

出力価格(1Mトークンあたり)

GPT-5.4

$2.50

$15.00

GPT-5.5

$5.00

$30.00

GPT-5.5 Pro

$30.00

$180.00

これらのコストを軽減するために、OpenAIはGPT-5.5がより「トークン効率的」である、つまりGPT-5.4と比べて同じタスクを完了するのに必要なトークン数が少ないと強調しています。

深さよりもスピードを必要とするユーザー向けに、OpenAIはCodexにFast modeも導入しました。これはトークン生成を1.5倍にする一方で、2.5倍のプレミアム価格がかかります。

GPT-5.4の時代に見られた「mini」および「nano」ティア(それぞれ1M入力トークンあたり$0.75、$0.20)は、現時点ではGPT-5.5に相当するものがありません。ただし同社は、GPT-5.5がPlus、Pro、Enterpriseを含むすべてのサブスクリプションティアに順次展開されていると述べています。

ライセンスと「サイバー許容的(cyber-permissive)」フロンティア

GPT-5.5に関するOpenAIの安全性とライセンスへのアプローチは、独自の概念を導入しています。それがTrusted Access for Cyberです。モデルが高度なセキュリティ脆弱性を特定し、パッチを当てられるようになったことで、OpenAIは一般ユーザー向けに「サイバーリスク分類子(cyber-risk classifiers)」をより厳格に実装しました。

しかし、正当なセキュリティ専門家向けには、OpenAIは専門的な「サイバー許容的」ライセンスを提供しています。このプログラムでは、電力網や水の供給といった重要インフラを担う責任者などの検証済みのディフェンダーが、GPT-5.4-Cyberのようなモデル、あるいはGPT-5.5の制限なし(アン制限)版を、セキュリティ関連プロンプトに対する拒否がより少ない形で利用できます。

このデュアルユースの枠組みは、AIがサイバー防御を加速できる一方で、武器化もされ得ることを認めています。OpenAIのPreparedness Frameworkのもとでは、GPT-5.5は生物・サイバーセキュリティ能力に関して「High」リスクに分類されています。

これを管理するため、APIの展開では現在、一般消費者向けのChatGPTとは異なる保護策が求められており、OpenAIは政府パートナーと協力して、これらのツールがデジタルのレジリエンスを強化するために使われるよう(それを損なうためではなく)取り組んでいます。

初期の反応:アクセスを失うのは「手足を切断された」ように感じる

パワーユーザーやエンジニアからの初期フィードバックは、GPT-5.5がAIの有用性における心理的な閾値を越えたことを示唆しています。開発者にとって、このモデルの際立った特徴は、大規模なコードベース全体にわたって「概念の明瞭さ(conceptual clarity)」を維持できる点です。

"私が使ってきた最初のコーディングモデルで、深刻なレベルで概念の明瞭さがある"と、EveryのCEOであるDan Shipperは述べました。

Shipperは、以前は人間のエンジニアのチームが書き直しを要した複雑なシステム障害のデバッグをモデルに依頼して試しました。するとGPT-5.5は同じ修正を自律的に生成しました。同様に、MagicPathのCEOであるPietro Schiranoは、モデルが、何百ものリファクタリング変更を含むブランチを単一の20分の処理でメインブランチへ正常に統合したことで、性能に「ステップチェンジ」が起きたと説明しています。おそらく最も生々しい反応は、NVIDIAの匿名のエンジニアがモデルへの早期アクセスを得た際に示したものでした:

"GPT-5.5へのアクセスを失うことは、手足を切断されたように感じる"。

この感情は科学コミュニティでも共有されています。Jackson Laboratory for Genomic Medicineの教授であるDerya Unutmazは、GPT-5.5 Proを使って28,000遺伝子のデータセットを解析し、通常であれば彼のチームが数か月かかるであろうレポートを数分で作成しました。

Axiom BioのCEOであるBrandon Whiteはさらに踏み込み、「OpenAIがこのペースを続けるなら、『年末までに創薬の基盤は変わる』」と述べました。

GPT-5.5は単なる段階的アップデートではありません。これは、人間が単一のプロンプトではなく、ワークフロー全体を委ねる世界のために設計されたツールです。コストはより高く、安全のガードレールもより厳格になっていますが、エージェント型の業務における性能向上は、AIがついにチャットボックスから抜け出して、オペレーティングシステムへ移ってきたことを示唆しています。

さらに驚くべきことに、同社の研究者によれば、スケーリングの限界の「終わり」を聞いていないとのことです。つまり、モデルがより多くのGPUで学習される段階はまだ続いている、ということです。

"実際のところ、これよりも大幅に賢いモデルを、まだ十分にトレーニングできる余地がある"と、OpenAIのチーフサイエンティストであるJakub Pachockiは述べました。