OMNI-PoseX：身体化タスクにおける6D物体姿勢推定のための高速ビジョンモデル

arXiv cs.RO / 2026/4/6

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、既存手法が一般化や安定性に苦戦するオープンワールド環境で、身体化エージェントのための正確な6D物体姿勢推定を目的とした高速な「ビジョン基盤モデル」OMNI-PoseXを提案する。
OMNI-PoseXは、物体理解と幾何学整合的な回転推論を分離することで、オープンボキャブラリ知覚とSO(3)を意識した反射フロー（reflected flow）型の姿勢予測器を組み合わせる新しいアーキテクチャを採用する。
軽量なマルチモーダル融合手法により、回転に敏感な幾何学的特徴をコンパクトな意味埋め込みで条件付けし、リアルタイムかつ安定した姿勢推定を可能にする。
大規模な6D姿勢データセットで学習し、多様な物体・視点・シーンに対する頑健性を高める。さらに、本論文ではゼロショットの一般化を含むベンチマークで強力な結果が報告されている。
システムレベルの実験では、OMNI-PoseXをロボットによる把持（グラスピング）に統合し、これまで見たことのない物体に対しても信頼性が高く幾何学的に整合した予測を示しつつ、最先端の精度とリアルタイム効率を達成する。

要旨: 正確な6D物体姿勢推定は、身体を備えたエージェントにとって基盤となる能力ですが、オープンワールド環境では依然として非常に困難です。既存の多くの手法は、しばしばクローズドセットの仮定や、幾何非依存の回帰スキームに依存しており、その結果、汎化性、安定性、そしてロボットシステムにおけるリアルタイム適用性が制限されます。本稿では、OMNI-PoseXを提案します。OMNI-PoseXは、開放語彙の知覚と、SO(3)に配慮した反射フローマッチングの姿勢予測器を統合する新規なネットワークアーキテクチャを導入する、視覚の基盤モデルです。このアーキテクチャは、物体レベルの理解と、幾何学的整合性のある回転推論を分離し、回転に敏感な幾何学的特徴をコンパクトな意味埋め込みで条件付けする軽量なマルチモーダル融合戦略を用いて、効率的かつ安定した6D姿勢推定を可能にします。頑健性と汎化性を高めるため、モデルは大規模な6D姿勢データセットで訓練されます。そこでは、幅広い物体の多様性、視点の変動、そしてシーンの複雑さを活用し、スケーラブルなオープンワールド姿勢バックボーンを構築します。姿勢推定ベンチマークにおける包括的な評価、アブレーション研究、ゼロショットの汎化、そしてシステムレベルでのロボットによる把持（グラスピング）統合に関する実験により、OMNI-PoseXの有効性が示されます。OMNI-PoseXは、SOTAの姿勢精度とリアルタイム効率を達成するとともに、多様で、これまで見たことのない物体に対して信頼できる把持を可能にする、幾何学的に整合した予測を提供します。