要約: 抽象化と推論コーパス(ARC-AGI)は、AIにおける流動的知能の主要なベンチマークとなっています。本調査は、3つのベンチマーク版とARC賞2024-2025大会を横断する82のアプローチの初の世代間分析を提示します。私たちの中心的な発見は、バージョン間の性能劣化がすべてのパラダイムで一貫しているということです:プログラム合成、ニューロ-シンボリック、そしてニューラルアプローチのいずれもARC-AGI-1からARC-AGI-2へ2〜3倍の低下を示しており、構成的一般化の根本的な限界を示しています。システムは現在ARC-AGI-1で93.0%を達成しています(Opus 4.6)、ARC-AGI-2では68.8%、ARC-AGI-3では13%へと低下しますが、人間はすべてのバージョンでほぼ完璧な精度を維持します。費用は1年で390倍も減少しました(o3の4,500/タスクからGPT-5.2の12/タスクへ)、ただしこれは主に推論時の並列性の低下を反映しています。兆規模モデルはスコアとコストの間で大きくばらつきますが、Kaggleに制約されたエントリ(660M-8B)は競争力のある結果を達成し、知性はスキル獲得の効率性であるというCholletの説と一致します。推論時の適応と洗練ループは重要な成功要因として浮上しますが、構成的推論と対話的学習は未解決のままです。ARC Prize 2025の受賞者はARC-AGI-2で24%に到達するには数十万の合成例を必要としたことが示され、推論は依然として知識に結びついていることが確認されました。ARC-AGI Living Surveyのこの初版は、2026年2月時点の分野を捉えており、更新は https://nimi-ai.com/arc-survey/ にて行われます。
AGIに向けた進歩のARC:抽象化と推論の生きた調査
arXiv cs.AI / 2026/3/17
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ARC-AGI Living Survey は ARC-AGI-1 から ARC-AGI-3 および ARC Prize 2024–2025 にわたる82 のアプローチを分析し、プログラム合成、ニューロ・シンボリック、ニューラルのパラダイム全体で性能が2~3倍低下することを明らかにしており、構成的一般化における根本的な限界を示唆している。
- ARC-AGI-1 における AI の性能は 93.0%(Opus 4.6)、ARC-AGI-2 で 68.8%、ARC-AGI-3 で 13% に低下する一方で、人間はすべてのバージョンでほぼ完璧な正答率を維持している。
- タスクあたりのコストは約 390 倍低下しており(約 $4,500 から $12 へ)、主にテスト時の並列性の低下によるもので、モデルの効率性の根本的な跳躍ではない。
- テスト時の適応と洗練ループが重要な成功要因として浮上する一方、構成的推論とインタラクティブ学習は未解決のままであり、Kaggle 制約のもと 6.6 億〜80 億エントリが競争力のある成果を達成しており、技能習得の効率性に関する見解を支持している。
- ARC Prize 2025 の受賞者は ARC-AGI-2 で 24% に到達するまでに数十万の合成例を必要としたことを示しており、推論は知識依存であることを強調している。生きた調査は 2026 年 2 月時点の分野の進展を捉え、リンク先サイトで更新情報を提供している。