RobotPan: 360°サラウンドビューに対応した、身体性知覚のためのロボティックビジョンシステム（360$^\circ$ Surround-View Robotic Vision System for Embodied Perception）

arXiv cs.RO / 2026/4/16

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

RobotPanは、6台の較正済みカメラとLiDARを組み合わせ、狭い視野に起因する制約を受けずにテレオペレーション、データ収集、緊急時のテイクオーバーを支援する、360°サラウンドビューのロボティックビジョンシステムとして提示される。
本研究では、まばらな複数視点入力から、メートル尺度でスケールされたコンパクトな3Dガウスを予測するフィードフォワード手法を導入し、身体性のある運用に向けてリアルタイムに描画／再構成を行う。
RobotPanは統一された球面座標表現と、階層的な球面ボクセル事前分布を用いることで、ロボット近傍に解像度を集中させつつ、より遠方では計算量を抑え、従来手法より少ないガウスで表現を実現する。
長いシーケンスに対しては、動的コンテンツを更新しつつ静的領域での無制限な増大を防ぐオンライン融合戦略を含み、時間が経ってもシステムを実用的に保つ。
著者らはさらに、ナビゲーション、マニピュレーション、ロコモーションといったロボティクスのタスクにおける、360°の新規視点合成とメートル尺度の3D再構成のための新しいマルチセンサーデータセットも公開する。

要旨: 周囲視（surround-view）の知覚は、ロボットのナビゲーションやロコマニピュレーションにとって、特にテレオペレーション、データ収集、緊急時の引き継ぎといったヒト・イン・ザ・ループ環境ではますます重要になっています。しかし現在のロボット用の視覚インタフェースは、多くの場合、狭い前方視野に限定されているか、もしくは搭載マルチカメラが利用可能であっても、オペレータの作業フローを中断してしまうような面倒な手動切り替えが必要です。これらの構成はいずれも、モーションに起因するジッタによって、ヘッドマウントディスプレイでのシミュレータ酔いを引き起こします。私たちは、6台のカメラとLiDARを組み合わせて、幾何学的かつリアルタイムの制約を満たしながら、身体性を備えた展開に必要な性能で全方位360 $^\circ$ の視覚カバレッジを提供する、周囲視のロボットビジョンシステムを提案します。さらに、較正済みの疎ビュー入力から、リアルタイムレンダリング、再構成、ストリーミングのために、
\textsc{RobotPan} として、
\emph{メートルスケールされた} かつ
\emph{コンパクトな} 3Dガウスを予測するフィードフォワードのフレームワークを提示します。
\textsc{RobotPan} は、マルチビューの特徴を統一された球面座標表現へと持ち上げ、階層型の球面ボクセル・プライオリ（事前分布）を用いてガウスをデコードします。ロボット近傍では高い解像度を割り当て、より大きい半径方向ではより粗い解像度を割り当てることで、忠実度を損なうことなく計算の冗長性を削減します。長いシーケンスを支えるために、私たちのオンライン融合は、外観（appearance）の選択的な更新によって静的領域での無制限な増大を防ぎつつ、動的コンテンツを更新します。最後に、ロボティクス向けに、360 $^\circ$ の新規視点合成とメートルスケールの3D再構成に最適化したマルチセンサデータセットを公開します。これは、実プラットフォーム上でのナビゲーション、マニピュレーション、ロコモーションをカバーします。実験の結果、
\textsc{RobotPan} は、既存のフィードフォワード再構成およびビュー合成手法に対して競争力のある品質を達成しつつ、実質的により少ないガウスを生成し、現実的なリアルタイムの身体性を備えた展開を可能にすることが示されました。プロジェクトWebサイト: https://robotpan.github.io/