DiffusionAnything:統一されたナビゲーションと把持前(プレグラスプ)動作のためのインコンテキスト拡散学習をエンドツーエンドで
arXiv cs.RO / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- DiffusionAnythingは、RGB画像から直接、統一されたナビゲーションとプレグラスプ操作を予測するエンドツーエンドの拡散ベースのロボティクス方策を提案し、明示的な目標指定やタスク固有の計画パイプラインを回避します。
- この手法は、多段階(マルチスケール)のFiLM条件付け(タスクモード、深度スケール、空間アテンション)に加え、軌道整合(トラジェクトリに整列した)深度予測を用いることで、単一モデルでメートルスケールからセンチメートルスケールまでの両方のタスクに対して、計量的な3D推論を支援します。
- AnyTraverseから着想を得た自己教師ありアテンション機構により、視覚言語モデルや深度センサに依存せずに、目標指向のゼロショット推論を実現します。
- 提案手法は、新しいシーンに対する強力なゼロショット汎化を報告しており、各タスクに必要な自己教師ありデータは約5分のみで、搭載上で効率よく動作します(メモリ≈2.0 GB、10 Hz)。
- 全体として、本研究は、ロボットの運動計画における重厚なVLAシステムに対して、拡散方策をより計算効率が高く、データ効率に優れ、センサ要件が軽い代替手段として位置づけています。



