GPT-5.5:「史上最強のエージェント型コーディングモデル」なのに自分の得意だと言うゲームで大失敗(LiveBench)

Reddit r/artificial / 2026/4/25

💬 オピニオンSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • この記事は、OpenAIがGPT-5.5を「最強のエージェント型コーディングモデル」とする主張を疑い、販売の軸が「エージェント型コーディング」であることを強調しています。
  • LiveBenchの独立評価では、GPT-5.5のエージェント型コーディングのスコアが56.67である一方、同じベンチマークでGPT-5.4は70.00を記録し、さらにGemini 3.1 ProやClaude 4.6などの競合も上回ると述べています。
  • OpenAIはTerminal-BenchやSWE-Bench Proで好成績を出したとされるものの、この記事ではOpenAIが設計や統制をしていない別の「信頼できる」テストではGPT-5.5の評価が大きく下がると主張しています。
  • 最後に、読者に実際にGPT-5.5をエージェント型コーディング用途で使った経験を尋ねており、宣伝文句と実態のギャップが無視できない可能性を示唆しています。
GPT-5.5: 'strongest agentic coding model ever' failing spectacularly at its own game (LiveBench)

おっと!

“GPT‑5.5は、これまでで最も強力なエージェンティック・コーディング・モデルです。”

“得られる伸びは、特にエージェンティック・コーディングで顕著です。”

“すべての手順を注意深く管理する代わりに、GPT‑5.5にごちゃごちゃした、複数パートからなるタスクを与えて、それに計画を立てさせ、ツールを使わせ、作業をチェックさせ、曖昧さの中を切り抜けさせ、そして走り続けさせることができます。”

これらの引用は、5.5に関するOpenAIの“売り”を要約したものです。彼らはそれのためにまったく新しいサブスクリプション階層を作り、Codexの焦点に据えました。ここでは、エージェンティック・コーディングは単なる機能ではなく売りのポイントになっています。

しかし、LiveBenchの独立したエージェンティック・コーディング評価を見ると、これは単に熱のこもった空騒ぎにすぎません。GPT-5.5のxHigh Effortスコアは56.67です。前身のGPT-5.4は、同じベンチマークで70.00をたたき出してこいつを粉砕しています。Gemini 3.1 Pro、Claude 4.6なども簡単に上回っています。この、まさに関連性の高いベンチマークだけでも、実際にはGPT-5.1 Codexのすぐ後ろで11位に位置しています。

OpenAIはTerminal-Bench(彼らのベンチマーク)とSWE-Bench Proを最大化できた一方で、彼らが設計・選定・制御していない、信頼性のあるテストでは、主力モデルが、本来得意とする領域において、前身および競合の両方に比べて大きく見劣りする結果になりました。

見た目ほど致命的な話なのでしょうか?実際に5.5をエージェンティック・コーディング用途で使ったあなたの体験はどうですか?

submitted by /u/Keybug
[link] [comments]