探索と認識のための4D情報に基づくリトリーバルを用いたアクティブなワールドモデル

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模で変化の大きい環境における「物理的な認識」を、部分観測下での難しい意思決定問題として位置づけ、観測の選択が空間・時間・スケール上の可観測性を決め、観測がその後の観測判断の質に影響すると述べています。
  • AW4RE(Active World-model with 4D-informed Retrieval for Exploration)は、認識を中心に据えた生成的ワールドモデルとして、センシングクエリを探索するための「センサネイティブな代理環境」を提供します。
  • AW4REは、4D情報に基づく証拠リトリーバル、行動条件付きの幾何学的サポートと時間的一貫性、さらに条件付き生成的補完を組み合わせることで、行動条件付きの観測プロセスを推定します。
  • 実験では、AW4REが、極端な視点変化、時間ギャップ、幾何学的情報の乏しさといった状況で、幾何学に配慮した生成ベースラインよりも「より根拠のある一貫した予測」を行うことが示されています。
  • 本研究は、現実での探索コストの高さや、未観測の視点に起因するシム・ツー・リアルの失敗といった課題を直接狙い、観測計画の意思決定を改善することを目指しています。

要旨: 身体的な気づき、特に大規模で動的な環境においては、空間・時間・スケールにわたる観測可能性(オブザーバビリティ)を決定する「センシングの意思決定」によって形成され、また観測はそのセンシングの意思決定の質に影響を与えます。このループ状の情報構造により、身体的な気づきは、部分観測を伴う基礎的に難しい意思決定問題となっています。過去10年の間に、完全観測のもとでの強化学習(RL)の前例のない成功を目の当たりにしてきましたが、POMDPのような部分観測下の意思決定問題は、依然として大部分が未解決です。現実世界での探索は過度にコストが高く、さらにシミュレーションから実世界への移行(sim-to-real)パイプラインでは観測されない視点の影響を受けます。我々は、探索のための「センシングのクエリ」に対して、センサネイティブな代理環境を提供する、気づき中心の生成型ワールドモデルであるAW4RE(探索のための4Dに基づくリトリーバルを備えたアクティブ・ワールドモデル)を提案します。AW4REは、要求されたセンシング行動を条件として、その行動条件付きの観測プロセスを推定します。これは、4Dに基づく証拠のリトリーバル、時間的な一貫性を伴う行動条件付きの幾何学的サポート、そして条件付きの生成完了を組み合わせることで実現します。実験により、AW4REは、極端な視点変化、時間的なギャップ、そして疎な幾何学的サポートの下で、幾何学を意識した生成ベースラインよりも、より根拠のある一貫した予測を生成することが示されます。