ロボットはどの再構成モデルを使うべきか？コストを考慮したロボット操作のための画像から3Dモデルへのルーティング

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、細かな表現が必要な場合と、粗いものでも衝突回避可能な幾何形状が必要な場合とで、異なるコスト—品質のトレードオフを持つ複数の画像から3Dへの再構成手法の中からロボットがどれを選ぶべきかを扱う。
視点依存のモデル性能を(1)学習した確率分布としてモデル化し、さらに(2)スカラーの分割関数によって画像全体の難しさを推定する、という2つに再構成のスコアリングを分離するルーティングフレームワークSCOUTを提案する。
SCOUTは、学習された成分が視点依存モデルの上でのみ動作するため、視点不変な再構成パイプラインを再学習なしで追加・削除・再構成できるよう設計されている。
推論時に任意の多次元のコスト制約を扱えるため、計算量、レイテンシ、品質要件が状況により変化する実ロボットシステムに適している。
いくつかの3D再構成データセットおよびロボットの把持・巧緻操作に関する実験で、ルーティングのベースラインに対して一貫した改善が示されており、著者らはコードと追加の結果を公開している。

Abstract

ロボティックなマニピュレーション課題では、品質の異なる3Dメッシュ復元が必要となります。器用な操作にはきめ細かな表面のディテールが要求される一方、衝突のない計画ではより粗い表現で許容されます。複数の復元手法は、画像から3Dへのモデルのように、出力品質が入力の視点に大きく依存するものから、構造化ライトスキャニングのような視点不変の手法まで、さまざまなコストと品質のトレードオフを提供します。すべてのモデルを照会することは計算的に不可能であるため、入力ごとのモデル選択が動機づけられます。我々はSCOUTを提案します。これは、新しいルーティング（経路選択）フレームワークであり、復元スコアを2つの成分に分解することで切り離します：（1）視点依存モデルの相対的な性能で、学習された確率分布として表現されるもの、そして（2）画像全体の難しさで、スカラーの分配関数推定として表現されるものです。学習ネットワークは視点依存モデル上でのみ動作するため、視点不変のパイプラインは再学習なしで追加・削除・再構成が可能です。SCOUTは、推論時に任意のコスト制約もサポートし、ロボティクスで一般的な多次元のコスト制約に対応します。Google Scanned Objects、BigBIRD、YCBの各データセットに対し、複数のメッシュ品質メトリクスで評価を行い、さまざまなコスト制約のもとで、LLM文献から適応したルーティングのベースラインに対して一貫した改善を示します。さらに、本フレームワークをロボティックハーシングおよび器用なマニピュレーションの実験によって検証します。コードおよび追加の結果は、我々のウェブサイトで公開します。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

ロボットはどの再構成モデルを使うべきか？コストを考慮したロボット操作のための画像から3Dモデルへのルーティング

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer