見る、象徴化、行動する：空間表現を用いたVLMのグラウンディングでより良いゲームプレイを実現

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は Atari ゲーム、VizDoom、AI2-THOR における最先端VLM三つを評価し、フレームのみ、自己抽出シンボルを含むフレーム、真のシンボルを含むフレーム、シンボルのみのパイプラインを比較します。
シンボリック情報が正確な場合、すべてのモデルが恩恵を受け、インタラクティブ環境におけるグラウンディングと行動選択が改善されることが示されました。
モデル自身がシンボルを抽出する場合、性能はモデルの能力とシーンの複雑さに依存するようになり、シンボル抽出の信頼性がボトルネックとして浮き彫りになります。
本研究は、知覚品質がVLMベースのエージェントの中心的なボトルネックであると結論づけ、より良いゲームプレイを可能にするためにシンボル抽出の頑健性向上を求めています。

Vision-Language Models (VLMs) は視覚的シーンを説明する点で優れている一方、知覚を正確で現実的な（grounded）行動へ翻訳することには苦労する。私たちは、VLMに視覚フレームとシーンの象徴的表現の両方を提供することで、それらの対話的環境での性能が向上するかを調べる。3つの最先端VLMを Atari、VizDoom、AI2-THOR にわたり評価し、フレームのみ、自己抽出シンボルを含むフレーム、真のシンボルを含むフレーム、シンボルのみのパイプラインを比較する。結果は、シンボリック情報が正確な場合、すべてのモデルが恩恵を受けることを示している。しかし、VLMが自らシンボルを抽出する場合、性能はモデルの能力とシーンの複雑さに依存する。さらに、VLMが視覚入力からシンボリック情報をどれだけ正確に抽出できるか、これらのシンボルのノイズが意思決定とゲームプレイの性能にどのように影響するかを詳しく調査する。我々の知見は、シンボリック・グラウンディングは抽出が信頼できる場合にのみ有効であり、将来のVLMベースのエージェントにとって知覚品質が中心的なボトルネックであることを示唆している。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

note

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

note

ベテランほど、AIを使った方がよい理由

note

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

note

見る、象徴化、行動する：空間表現を用いたVLMのグラウンディングでより良いゲームプレイを実現

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

ベテランほど、AIを使った方がよい理由

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する​

ベテランほど、AIを使った方がよい理由

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する