最新のAIモデルでも3つの体系的な推論ミス:ARC-AGI-3分析が示す

THE DECODER / 2026/5/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ARC Prize Foundationは、OpenAIのGPT-5.5とAnthropicのOpus 4.7をARC-AGI-3ベンチマークで160回分のゲーム実行として評価しました。
  • 分析の結果、どちらのモデルも、人間が難なく解ける課題では1%未満の精度にとどまっていることが分かりました。
  • その低い性能の大部分を説明する3つの体系的な推論エラーパターンが特定されました。
  • これらの結果は、最先端のAIでもARC-AGI-3のような問題に必要な中核的な推論・理解に一貫した不足が残っていることを示唆しています。

ARC Prize Foundationは、ARC-AGI-3ベンチマークでOpenAIのGPT-5.5およびAnthropicのOpus 4.7の160回のゲーム実行を分析しました。人間が大して苦労せずに解ける課題で両モデルが1%未満にとどまる理由は、3つの体系的な誤りパターンで説明できます。

この記事「最新のAIモデルでさえ、3つの体系的な推論エラーを犯す」—ARC-AGI-3の分析が示すThe Decoderで最初に掲載されました。