現在のエージェントは「発見から実アプリケーション」までのギャップを埋められるか?Minecraftでのケーススタディ
arXiv cs.AI / 2026/4/28
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この研究では、Minecraftベースのベンチマーク「SciCrafter」を提案し、パラメータ化されたレッドストーン回路タスクを通じて「発見から実アプリケーション」ループを実装します。エージェントは指定されたランプ点灯パターンを再現する必要があります。
- GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5などのフロンティアモデルをコードエージェントの枠組みで評価したところ、タスクのパラメータを大きくすると構築が難化し、成功率は約26%で頭打ちになることが示されました。
- 研究チームはこのループを「知識ギャップの特定」「実験による発見」「知識の統合」「知識の適用」の4能力に分解し、介入を設計してモデルがどのギャップでつまずいているかを推定します。
- 結果として、全体では知識の適用が最大のボトルネックである一方、フロンティアモデルでは知識ギャップの特定(適切な問題設定)が主要な課題として浮上し、SciCrafterはこの“発見から実アプリケーション”の全ループを扱う今後の研究の診断ツールとして公開されます。