現在のエージェントは「発見から実アプリケーション」までのギャップを埋められるか？Minecraftでのケーススタディ

arXiv cs.AI / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この研究では、Minecraftベースのベンチマーク「SciCrafter」を提案し、パラメータ化されたレッドストーン回路タスクを通じて「発見から実アプリケーション」ループを実装します。エージェントは指定されたランプ点灯パターンを再現する必要があります。
GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5などのフロンティアモデルをコードエージェントの枠組みで評価したところ、タスクのパラメータを大きくすると構築が難化し、成功率は約26%で頭打ちになることが示されました。
研究チームはこのループを「知識ギャップの特定」「実験による発見」「知識の統合」「知識の適用」の4能力に分解し、介入を設計してモデルがどのギャップでつまずいているかを推定します。
結果として、全体では知識の適用が最大のボトルネックである一方、フロンティアモデルでは知識ギャップの特定（適切な問題設定）が主要な課題として浮上し、SciCrafterはこの“発見から実アプリケーション”の全ループを扱う今後の研究の診断ツールとして公開されます。

Abstract

因果的な規則性を発見し、それを応用して機能するシステムを構築する――発見から応用へのループ――は汎用知能の特徴ですが、この能力の評価は、科学的発見と現実世界の工学との間にある膨大な複雑性のギャップによって妨げられてきました。私たちは、パラメータ化されたレッドストーン回路の課題によってこのループを実行可能な形にした、Minecraftベースのベンチマーク SciCrafter を提案します。エージェントは、指定されたパターン（例：同時、または時系列のシーケンス）でランプに点火しなければなりません。目標パラメータを大幅にスケールすると、構築の複雑性と必要な知識が大きく増えるため、暗記した解答に頼るのではなく、真の発見が求められます。GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5 を含むフロンティアモデルを、汎用コードエージェントの枠組みのもとで評価したところ、いずれも成功率はおよそ26%で頭打ちになりました。これらの失敗を診断するために、ループを4つの能力――知識ギャップの同定、実験による発見、知識の統合、知識の応用――に分解し、それぞれのギャップに対応するものを代理する指標として、狙いを定めた介入の限界的な寄与を設計します。分析の結果、すべてのモデルにおいて、一般的な知識応用能力が依然として最大のギャップである一方で、フロンティアモデルでは知識ギャップの同定が主要な障害になり始めていることが分かりました。これは、ボトルネックが「問題を正しく解くこと」から、現在のAIにとって「適切な問題を立てること」へと移行していることを示しています。私たちは SciCrafter を、この発見から応用までの全ループをたどるAIシステムに関する今後の研究のための診断プローブとして公開します。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

Dev.to

現在のエージェントは「発見から実アプリケーション」までのギャップを埋められるか？Minecraftでのケーススタディ

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力