
ARC Prize Foundationは、ARC-AGI-3ベンチマークでOpenAIのGPT-5.5およびAnthropicのOpus 4.7の160回のゲーム実行を分析しました。人間が大して苦労せずに解ける課題で両モデルが1%未満にとどまる理由は、3つの体系的な誤りパターンで説明できます。
この記事「最新のAIモデルでさえ、3つの体系的な推論エラーを犯す」—ARC-AGI-3の分析が示すはThe Decoderで最初に掲載されました。
THE DECODER / 2026/5/2

ARC Prize Foundationは、ARC-AGI-3ベンチマークでOpenAIのGPT-5.5およびAnthropicのOpus 4.7の160回のゲーム実行を分析しました。人間が大して苦労せずに解ける課題で両モデルが1%未満にとどまる理由は、3つの体系的な誤りパターンで説明できます。
この記事「最新のAIモデルでさえ、3つの体系的な推論エラーを犯す」—ARC-AGI-3の分析が示すはThe Decoderで最初に掲載されました。