AsgardBench:視覚に基づくインタラクティブ・プランニングのためのベンチマーク

Microsoft Research Blog / 2026/3/27

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • AsgardBenchは、エンボディドAIのシナリオにおける視覚に基づくインタラクティブ・プランニングに焦点を当てた新しいベンチマークとして提示される。そこでは、システムが時間の経過に伴って知覚し、行動を計画し、計画を修正する必要がある。
  • 調理場の清掃例では、目的の状態にすでに物体が置かれている場合や、環境内に追加の物体があり元の計画を妨げる場合など、動的で予期しない状況を扱う必要性が示される。
  • このベンチマークは、意思決定を視覚的観察に「根付かせる(grounding)」ことを重視し、静的な指示の追従ではなく、インタラクティブな設定での性能を評価する。
  • これらのインタラクティブ・プランニングの課題を対象とすることで、AsgardBenchは、期待された結果と異なる場合にも適応できる頑健なエンボディド・エージェントに向けた進展をより適切に測定することを目指している。

キッチンを掃除するように課されたロボットを想像してください。ロボットは周囲の環境を観察し、何をすべきかを判断し、たとえば、洗うように任されたマグカップがすでにきれいだったり、シンクが他の物でいっぱいだったりするなど、想定どおりにいかない場合に調整する必要があります。これが「組み込み型AI(embodied AI)」の領域です:システム[…]

この記事 AsgardBench: A benchmark for visually grounded interactive planning は、Microsoft Research に最初に掲載されました。