広告

DiffusionAnything:統一されたナビゲーションと把持前(プレグラスプ)動作のためのインコンテキスト拡散学習をエンドツーエンドで

arXiv cs.RO / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DiffusionAnythingは、RGB画像から直接、統一されたナビゲーションとプレグラスプ操作を予測するエンドツーエンドの拡散ベースのロボティクス方策を提案し、明示的な目標指定やタスク固有の計画パイプラインを回避します。
  • この手法は、多段階(マルチスケール)のFiLM条件付け(タスクモード、深度スケール、空間アテンション)に加え、軌道整合(トラジェクトリに整列した)深度予測を用いることで、単一モデルでメートルスケールからセンチメートルスケールまでの両方のタスクに対して、計量的な3D推論を支援します。
  • AnyTraverseから着想を得た自己教師ありアテンション機構により、視覚言語モデルや深度センサに依存せずに、目標指向のゼロショット推論を実現します。
  • 提案手法は、新しいシーンに対する強力なゼロショット汎化を報告しており、各タスクに必要な自己教師ありデータは約5分のみで、搭載上で効率よく動作します(メモリ≈2.0 GB、10 Hz)。
  • 全体として、本研究は、ロボットの運動計画における重厚なVLAシステムに対して、拡散方策をより計算効率が高く、データ効率に優れ、センサ要件が軽い代替手段として位置づけています。

Abstract

視覚から直接運動計画を効率的に予測することは、ロボティクスにおける根本的な課題です。通常の計画では、明示的な目標指定やタスク固有の設計が必要だからです。近年の視覚言語行動(VLA)モデルは、視覚入力から直接行動を推定しますが、大規模な計算資源、膨大な学習データを要求し、さらに新しいシーンに対してゼロショット性能を発揮できません。私たちは、マルチスケール特徴変調によってメートルスケールのナビゲーションとセンチメートルスケールの操作の両方を扱う統一的な画像空間拡散ポリシーを提示します。各タスクにつき自己教師ありデータはわずか5分で済みます。この枠組みを支える3つの主要な革新は次のとおりです。(1)タスクモード、深度スケール、空間的注意に対するマルチスケールFiLM条件付けにより、単一モデルでタスクに適した振る舞いを実現します。(2)軌道に整合した深度予測により、生成された経路ウェイポイントに沿った測地3D推論に焦点を当てます。(3)AnyTraverseからの自己教師あり注意によって、視覚言語モデルや深度センサーなしで、目標指向の推論を可能にします。モデルはRGB入力のみから動作します(メモリ2.0 GB、10 Hz)。その結果、オンボード実装に適したまま、未知のシーンに対して頑健なゼロショット汎化を達成します。

広告