概要: 本研究では、言語条件付き視覚ナビゲーション(LCVN)を扱います。この枠組みでは、身体を持つエージェントが、最初の自己中心視点(egocentric)の観察のみに基づいて、自然言語による指示に従うことを求められます。目的画像へのアクセスがないため、エージェントは言語を手掛かりに知覚と連続制御を形作らなければならず、グラウンディング問題は特に困難になります。本研究では、この問題を言語指示に条件付けられたオープンループの軌道予測として定式化し、39,016本の軌道と117,048件の人手によって検証された指示からなるベンチマークであるLCVNデータセットを導入します。このデータセットは、さまざまな環境と指示スタイルにまたがる再現可能な研究を支援します。さらに、このデータセットを用いて、言語グラウンディング、将来状態の予測、行動生成を2つの補完的なモデル系によって結びつけるLCVNフレームワークを開発します。1つ目の系は、拡散ベースの世界モデルであるLCVN-WMと、同世界モデルの潜在空間で学習されたアクター・クリティック型エージェントであるLCVN-ACを組み合わせます。2つ目の系であるLCVN-Uniは、自己回帰型のマルチモーダル・アーキテクチャを採用し、行動と将来の観測の両方を予測します。実験の結果、これらの系は異なる利点を持つことが示されます。前者は時間的により一貫したロールアウトを提供し、後者は未見の環境への汎化性能がより高いことが分かりました。これらの観察を総合すると、統一されたタスク設定の下で、言語グラウンディング、イマジネーション(想像)、および方策学習を共同で研究する価値が示唆され、LCVNは言語条件付き世界モデルのさらなる調査のための具体的な基盤を提供します。コードは https://github.com/F1y1113/LCVN で公開されています。
視覚ナビゲーションのための言語条件付き世界モデリング
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語条件付きの視覚ナビゲーションを研究する。身体性を備えたエージェントが、最初の自己中心視点(egocentric)の観測のみを用い、目標画像なしで自然言語の指示に従うことが求められ、制御問題において言語の基底付け(language grounding)が中心となる。
- 複数の環境と指示スタイルにわたって、人間が検証した117,048件の指示と39,016本の軌跡を含むLCVNデータセットを導入し、再現可能なベンチマークを支援する。
- 著者らはこの課題を、言語条件付きのオープンループな軌道予測として位置づけ、言語の基底付け、将来状態(イマジネーション)予測、行動生成を結びつける2つのモデルファミリを提案する。
- 1つ目のアプローチ(LCVN-WM + LCVN-AC)は、拡散ベースの世界モデルと、モデルの潜在空間上で動作するアクター・クリティック方策を組み合わせ、より時間的に整合性の高いロールアウトを実現する。
- もう1つのアプローチ(LCVN-Uni)は、自回帰的なマルチモーダルなアーキテクチャを用いて将来の観測と行動を予測し、未見の環境への一般化性能がより良いことを示す。



