要旨: 新しい環境における言語指定のモバイル操作タスクは、部分的にしか観測されていないシーンとの相互作用、言語指示から意味情報を部分観測されたシーンへと位置付けること、そして新たな観測によってシーンに関する知識を能動的に更新すること、という同時に直面する複数の課題を抱えています。これらの課題に対処するために、階層型シーン表現とそれに対応する探索目的を提案します。私たちは、ナビゲーションのために関連する意味情報と占有(オキュパンシ)情報を含む2Dマップを構築すると同時に、タスクに関連する物体の3Dガウス表現を能動的に構築します。この多層の表現にまたがる観測を融合しつつ、各物体の検出の多視点整合性をディリクレ分布を用いて明示的にモデル化します。計画は、私たちの階層表現上での探索問題として定式化されます。私たちは、(i) 環境の未観測領域または不確実な領域の探索、(ii) 候補となる物体に関する追加観測からの情報収集、を共同で考慮する目的を定式化します。この目的は、物体検出の意味整合性を改善することに伴う期待情報利得と、フロンティアベースの探索を統合したものです。HabitatシミュレータにおけるOVMMベンチマークでHELIOSを評価します。ここでは、比較的小さなターゲット物体を含む大規模で複雑なシーンのため知覚が困難であるピック・アンド・プレースのベンチマークです。HELIOSはOVMMにおいて先端(state-of-the-art)の結果を達成します。さらに、Spotロボットを用いた実世界のオフィス環境にて、言語指定のピック・アンド・プレースを行うHELIOSの実演を示します。私たちの手法は、シミュレーションと実世界の両方において、タスク固有の学習なしでこれらの結果を得るために、事前学習済みのVLMを活用します。
HELIOS:オープンシーンにおける言語に根ざしたインタラクションの階層的探索
arXiv cs.RO / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、新規で部分的に観測された環境における、言語に根ざしたモバイルマニピュレーションのための階層的なシーン表現と探索目的「HELIOS」を提案する。
- HELIOSは、2Dナビゲーションマップ(セマンティックおよび占有)と、能動的に構築する3Dガウス的な物体表現を組み合わせる。多層の観測を融合しつつ、ディリクレ分布によって多視点での検出整合性を強制する。
- 計画問題は、階層表現上での探索として定式化される。目的関数は、フロンティア/不確実性の探索と、物体検出のセマンティック整合性を改善するための期待情報獲得量(expected information gain)のバランスを取る。
- Habitatシミュレータ上のOVMMベンチマークにおいて、HELIOSは最先端の性能を達成する。特に、大規模で複雑なシーンにおいて、対象となる小さな物体で効果が顕著である。
- 本手法は、Spotロボットを用いた実オフィス環境でも実証されている。事前学習済みのVLMを活用し、言語指定されたピック&プレースに対するタスク固有の学習を回避する。



