要旨: 我々は、RADIO-ViPE(Reduce All Domains Into One -- Video Pose Engine)を提示する。これは、ジオメトリに配慮したオープン語彙グラウンディングを可能にするオンラインのセマンティックSLAMシステムであり、動的な環境において任意の自然言語クエリを、局所化された3D領域や物体に結び付ける。校正済みの、ポーズ指定されたRGB-D入力を必要とする既存の手法とは異なり、RADIO-ViPEは事前のカメラ内部パラメータ、深度センサ、またはポーズ初期化を一切必要とせず、取得したままの単眼モノクロ映像ストリーム(モノキュラRGBビデオ)に直接動作する。システムは、アグロメラティブな基盤モデル(例:RADIO)から得られる、視覚と言語にまたがるマルチモーダル埋め込みと、幾何学的なシーン情報とを密に結合する。この結合は、複数のモダリティから得られる地図の整合性を高めるために、初期化、最適化、およびファクタグラフ接続の各段階で行われる。最適化はアダプティブなロバストカーネルで包み込まれており、能動的に動く物体と、エージェントの移動により生じたシーン要素(例:自分目線のセッション中に家具が再配置される)を両方扱えるように設計されている。実験により、RADIO-ViPEは動的TUM-RGBDベンチマークで先端的な結果を達成しつつ、校正済みデータや静的シーン仮定に依存するオフラインのオープン語彙手法に対しても競争力のある性能を維持することが示される。RADIO-ViPEは、実世界での展開における重要なギャップを埋め、自律ロボティクスおよび、制約のない「その場限りの」動画ストリームに対して、頑健なオープン語彙セマンティック・グラウンディングを可能にする。プロジェクトページ: https://be2rlab.github.io/radio_vipe
RADIO-ViPE:動的環境におけるオープンボキャブラリ意味SLAMのためのオンライン・高密結合マルチモーダル融合
arXiv cs.CV / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- RADIO-ViPEは、自然言語クエリを動的環境内の局所的な3D領域や物体に結び付ける、ジオメトリ対応のオープンボキャブラリ意味グラウンディングを行うオンライン意味SLAMシステムである。
- 従来手法が較正済みのポーズドRGB-D入力を前提とするのに対し、RADIO-ViPEはカメラインとリンシクス、深度センサ、ポーズ初期化を必要とせず、生のモノクロRGB動画ストリームから直接動作する。
- この手法は、(例:RADIO)などのアグロメレーティブな基盤モデルから得た視覚・言語のマルチモーダル埋め込みと幾何学的なシーン情報を、初期化・最適化・ファクタグラフ接続の各段階で高密に結合し、複数モーダル間のマップ整合性を高める。
- 最適化には適応的なロバストカーネルを用い、能動的に動く物体だけでなく、自己中心視点での移動に伴う家具の配置替えのような、エージェントにより変化したシーン要素にも対応する。
- 実験では動的TUM-RGBDベンチマークで最先端の性能を示し、較正データや静的シーン仮定に依存するオフラインのオープンボキャブラリ手法に対しても競争力のある結果が報告されている。



