広告

ロボットはどの再構成モデルを使うべきか? コストを考慮したロボット操作のための画像から3Dモデルへのルーティング

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、細かな表現が必要な場合と、粗いものでも衝突回避可能な幾何形状が必要な場合とで、異なるコスト—品質のトレードオフを持つ複数の画像から3Dへの再構成手法の中からロボットがどれを選ぶべきかを扱う。
  • 視点依存のモデル性能を(1)学習した確率分布としてモデル化し、さらに(2)スカラーの分割関数によって画像全体の難しさを推定する、という2つに再構成のスコアリングを分離するルーティングフレームワークSCOUTを提案する。
  • SCOUTは、学習された成分が視点依存モデルの上でのみ動作するため、視点不変な再構成パイプラインを再学習なしで追加・削除・再構成できるよう設計されている。
  • 推論時に任意の多次元のコスト制約を扱えるため、計算量、レイテンシ、品質要件が状況により変化する実ロボットシステムに適している。
  • いくつかの3D再構成データセットおよびロボットの把持・巧緻操作に関する実験で、ルーティングのベースラインに対して一貫した改善が示されており、著者らはコードと追加の結果を公開している。

Abstract

ロボティックなマニピュレーション課題では、品質の異なる3Dメッシュ復元が必要となります。器用な操作にはきめ細かな表面のディテールが要求される一方、衝突のない計画ではより粗い表現で許容されます。複数の復元手法は、画像から3Dへのモデルのように、出力品質が入力の視点に大きく依存するものから、構造化ライトスキャニングのような視点不変の手法まで、さまざまなコストと品質のトレードオフを提供します。すべてのモデルを照会することは計算的に不可能であるため、入力ごとのモデル選択が動機づけられます。我々はSCOUTを提案します。これは、新しいルーティング(経路選択)フレームワークであり、復元スコアを2つの成分に分解することで切り離します:(1)視点依存モデルの相対的な性能で、学習された確率分布として表現されるもの、そして(2)画像全体の難しさで、スカラーの分配関数推定として表現されるものです。学習ネットワークは視点依存モデル上でのみ動作するため、視点不変のパイプラインは再学習なしで追加・削除・再構成が可能です。SCOUTは、推論時に任意のコスト制約もサポートし、ロボティクスで一般的な多次元のコスト制約に対応します。Google Scanned Objects、BigBIRD、YCBの各データセットに対し、複数のメッシュ品質メトリクスで評価を行い、さまざまなコスト制約のもとで、LLM文献から適応したルーティングのベースラインに対して一貫した改善を示します。さらに、本フレームワークをロボティックハーシングおよび器用なマニピュレーションの実験によって検証します。コードおよび追加の結果は、我々のウェブサイトで公開します。

広告