閉ループVLMエージェントによるテキスト誘導の6D物体ポーズ再配置

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキスト指示に整合する目標「6D物体ポーズ(位置・姿勢)」をVLMが推定できないという課題に対し、推論時の反復的な閉ループ手法で大幅な性能向上を示す。
  • RGB-D(またはメッシュ合成)の3Dシーンに対し、(1)現状観察→(2)指示への忠実性評価→(3)対象物のポーズ更新提案→(4)更新を適用して再レンダリング、を繰り返すことでVLMをエージェントとして機能させる。
  • 閉ループに必須とされる3つの推論時テクニックとして、支持視点選択を伴うマルチビュー推論、対象物中心座標の可視化、単一軸回転予測を導入する。
  • 追加の微調整や新モジュールなしで、クローズド/オープン両方のVLMで先行手法を上回り、さらにロボットの簡易モーション計画と組み合わせて既存手法より高いロボット操作成功率を達成する。