最新のAIモデルでも3つの体系的な推論ミス：ARC-AGI-3分析が示す

THE DECODER / 2026/5/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ARC Prize Foundationは、OpenAIのGPT-5.5とAnthropicのOpus 4.7をARC-AGI-3ベンチマークで160回分のゲーム実行として評価しました。
分析の結果、どちらのモデルも、人間が難なく解ける課題では1%未満の精度にとどまっていることが分かりました。
その低い性能の大部分を説明する3つの体系的な推論エラーパターンが特定されました。
これらの結果は、最先端のAIでもARC-AGI-3のような問題に必要な中核的な推論・理解に一貫した不足が残っていることを示唆しています。

ARC Prize Foundationは、ARC-AGI-3ベンチマークでOpenAIのGPT-5.5およびAnthropicのOpus 4.7の160回のゲーム実行を分析しました。人間が大して苦労せずに解ける課題で両モデルが1％未満にとどまる理由は、3つの体系的な誤りパターンで説明できます。

日経XTECH

日経XTECH

Dev.to

Dev.to

Dev.to