現在のエージェントは「発見から実アプリケーション」までのギャップを埋められるか?Minecraftでのケーススタディ

arXiv cs.AI / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この研究では、Minecraftベースのベンチマーク「SciCrafter」を提案し、パラメータ化されたレッドストーン回路タスクを通じて「発見から実アプリケーション」ループを実装します。エージェントは指定されたランプ点灯パターンを再現する必要があります。
  • GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5などのフロンティアモデルをコードエージェントの枠組みで評価したところ、タスクのパラメータを大きくすると構築が難化し、成功率は約26%で頭打ちになることが示されました。
  • 研究チームはこのループを「知識ギャップの特定」「実験による発見」「知識の統合」「知識の適用」の4能力に分解し、介入を設計してモデルがどのギャップでつまずいているかを推定します。
  • 結果として、全体では知識の適用が最大のボトルネックである一方、フロンティアモデルでは知識ギャップの特定(適切な問題設定)が主要な課題として浮上し、SciCrafterはこの“発見から実アプリケーション”の全ループを扱う今後の研究の診断ツールとして公開されます。

Abstract

因果的な規則性を発見し、それを応用して機能するシステムを構築する――発見から応用へのループ――は汎用知能の特徴ですが、この能力の評価は、科学的発見と現実世界の工学との間にある膨大な複雑性のギャップによって妨げられてきました。私たちは、パラメータ化されたレッドストーン回路の課題によってこのループを実行可能な形にした、Minecraftベースのベンチマーク SciCrafter を提案します。エージェントは、指定されたパターン(例:同時、または時系列のシーケンス)でランプに点火しなければなりません。目標パラメータを大幅にスケールすると、構築の複雑性と必要な知識が大きく増えるため、暗記した解答に頼るのではなく、真の発見が求められます。GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5 を含むフロンティアモデルを、汎用コードエージェントの枠組みのもとで評価したところ、いずれも成功率はおよそ26%で頭打ちになりました。これらの失敗を診断するために、ループを4つの能力――知識ギャップの同定、実験による発見、知識の統合、知識の応用――に分解し、それぞれのギャップに対応するものを代理する指標として、狙いを定めた介入の限界的な寄与を設計します。分析の結果、すべてのモデルにおいて、一般的な知識応用能力が依然として最大のギャップである一方で、フロンティアモデルでは知識ギャップの同定が主要な障害になり始めていることが分かりました。これは、ボトルネックが「問題を正しく解くこと」から、現在のAIにとって「適切な問題を立てること」へと移行していることを示しています。私たちは SciCrafter を、この発見から応用までの全ループをたどるAIシステムに関する今後の研究のための診断プローブとして公開します。

現在のエージェントは「発見から実アプリケーション」までのギャップを埋められるか?Minecraftでのケーススタディ | AI Navigate