要旨: AsgardBenchを用いて、視覚的根拠を持つ高レベルのアクションシーケンス生成と対話的計画を評価することを目指します。実行中の計画適応を、ナビゲーションや低レベル操作ではなく視覚的観察に基づいて行うことに特に焦点を当てます。具象化されたAIベンチマークの世界において、AsgardBenchは対話的計画という能力カテゴリを対象とします。これは、環境フィードバックに応じて計画を修正することを要求するため、オフラインの高レベル計画よりも高度ですが、低レベルの実行とは区別されます。
従来の具象化AIベンチマークのうち、推論とナビゲーションを混同したり、知覚を代替する豊富な訂正フィードバックを提供したりするものとは異なり、AsgardBenchはエージェントの入力を画像、行動履歴、軽量な成功/失敗信号に限定し、低レベルの制御ノイズのない制御されたシミュレータの中で対話的計画を分離します。
このベンチマークは、12種類のタスクタイプを横断する108のタスクインスタンスを含み、各事例はオブジェクトの状態、配置、シーンの構成を通じて体系的に変化します。これらの統制された変化は、エージェントが観察する内容によって1つの指示が異なるアクションシーケンスを要求する条件分岐を生み出し、実行中の条件分岐と計画の修復を強調します。
先行する視覚言語モデルの評価は、視覚入力がないと性能が急激に低下することを示しており、視覚的根拠付けと状態追跡の弱点が露呈し、最終的には対話的計画を損ないます。我々のベンチマークは、より狭い問いに焦点を絞ります。すなわち、物事が予想通り進まない時に、モデルは見ているものを実際に使って計画を適応させることができるのか、ということです。
AsgardBench - 最小限のフィードバックの下で視覚的根拠に基づくインタラクティブ計画を評価する
arXiv cs.AI / 2026/3/18
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- AsgardBench は視覚的根拠を持つ高レベルのアクションシーケンス生成と、視覚的観察に基づくプラン適応を伴うインタラクティブ計画を評価するベンチマークを導入します。
- このベンチマークは、知覚の置換を避けるため、制御されたシミュレータ内で入力を画像、行動履歴、軽量な成功/失敗シグナルのみに制限することにより、インタラクティブな計画を分離して評価します。
- 12種類のタスクタイプにまたがる108のタスクインスタンスで構成され、実行時にプラン修復を要する条件分岐を生じさせる体系的な変化を備えています。
- 評価は、最先端のビジョン言語モデルが視覚入力なしでは苦戦することを示しており、視覚的根拠付けと状態追跡の弱点がインタラクティブ計画を妨げることを明らかにしています。




