AsgardBench：視覚に基づくインタラクティブ・プランニングのためのベンチマーク

Microsoft Research Blog / 2026/3/27

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

AsgardBenchは、エンボディドAIのシナリオにおける視覚に基づくインタラクティブ・プランニングに焦点を当てた新しいベンチマークとして提示される。そこでは、システムが時間の経過に伴って知覚し、行動を計画し、計画を修正する必要がある。
調理場の清掃例では、目的の状態にすでに物体が置かれている場合や、環境内に追加の物体があり元の計画を妨げる場合など、動的で予期しない状況を扱う必要性が示される。
このベンチマークは、意思決定を視覚的観察に「根付かせる（grounding）」ことを重視し、静的な指示の追従ではなく、インタラクティブな設定での性能を評価する。
これらのインタラクティブ・プランニングの課題を対象とすることで、AsgardBenchは、期待された結果と異なる場合にも適応できる頑健なエンボディド・エージェントに向けた進展をより適切に測定することを目指している。

キッチンを掃除するように課されたロボットを想像してください。ロボットは周囲の環境を観察し、何をすべきかを判断し、たとえば、洗うように任されたマグカップがすでにきれいだったり、シンクが他の物でいっぱいだったりするなど、想定どおりにいかない場合に調整する必要があります。これが「組み込み型AI（embodied AI）」の領域です：システム[…]

この記事 AsgardBench: A benchmark for visually grounded interactive planning は、Microsoft Research に最初に掲載されました。

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

日経XTECH

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

Forge – 開発チームの会話を構造化された意思決定に変える

Dev.to

AsgardBench：視覚に基づくインタラクティブ・プランニングのためのベンチマーク

要点

関連記事

三菱電機のデジタル戦略を率いる武田氏、「現場データの背景理解が重要」

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

Forge – 開発チームの会話を構造化された意思決定に変える

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer