見る、象徴化、行動する:空間表現を用いたVLMのグラウンディングでより良いゲームプレイを実現

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は Atari ゲーム、VizDoom、AI2-THOR における最先端VLM三つを評価し、フレームのみ、自己抽出シンボルを含むフレーム、真のシンボルを含むフレーム、シンボルのみのパイプラインを比較します。
  • シンボリック情報が正確な場合、すべてのモデルが恩恵を受け、インタラクティブ環境におけるグラウンディングと行動選択が改善されることが示されました。
  • モデル自身がシンボルを抽出する場合、性能はモデルの能力とシーンの複雑さに依存するようになり、シンボル抽出の信頼性がボトルネックとして浮き彫りになります。
  • 本研究は、知覚品質がVLMベースのエージェントの中心的なボトルネックであると結論づけ、より良いゲームプレイを可能にするためにシンボル抽出の頑健性向上を求めています。
Vision-Language Models (VLMs) は視覚的シーンを説明する点で優れている一方、知覚を正確で現実的な(grounded)行動へ翻訳することには苦労する。私たちは、VLMに視覚フレームとシーンの象徴的表現の両方を提供することで、それらの対話的環境での性能が向上するかを調べる。3つの最先端VLMを Atari、VizDoom、AI2-THOR にわたり評価し、フレームのみ、自己抽出シンボルを含むフレーム、真のシンボルを含むフレーム、シンボルのみのパイプラインを比較する。結果は、シンボリック情報が正確な場合、すべてのモデルが恩恵を受けることを示している。しかし、VLMが自らシンボルを抽出する場合、性能はモデルの能力とシーンの複雑さに依存する。さらに、VLMが視覚入力からシンボリック情報をどれだけ正確に抽出できるか、これらのシンボルのノイズが意思決定とゲームプレイの性能にどのように影響するかを詳しく調査する。我々の知見は、シンボリック・グラウンディングは抽出が信頼できる場合にのみ有効であり、将来のVLMベースのエージェントにとって知覚品質が中心的なボトルネックであることを示唆している。