DiffusionAnything：統一されたナビゲーションと把持前（プレグラスプ）動作のためのインコンテキスト拡散学習をエンドツーエンドで

arXiv cs.RO / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

DiffusionAnythingは、RGB画像から直接、統一されたナビゲーションとプレグラスプ操作を予測するエンドツーエンドの拡散ベースのロボティクス方策を提案し、明示的な目標指定やタスク固有の計画パイプラインを回避します。
この手法は、多段階（マルチスケール）のFiLM条件付け（タスクモード、深度スケール、空間アテンション）に加え、軌道整合（トラジェクトリに整列した）深度予測を用いることで、単一モデルでメートルスケールからセンチメートルスケールまでの両方のタスクに対して、計量的な3D推論を支援します。
AnyTraverseから着想を得た自己教師ありアテンション機構により、視覚言語モデルや深度センサに依存せずに、目標指向のゼロショット推論を実現します。
提案手法は、新しいシーンに対する強力なゼロショット汎化を報告しており、各タスクに必要な自己教師ありデータは約5分のみで、搭載上で効率よく動作します（メモリ≈2.0 GB、10 Hz）。
全体として、本研究は、ロボットの運動計画における重厚なVLAシステムに対して、拡散方策をより計算効率が高く、データ効率に優れ、センサ要件が軽い代替手段として位置づけています。

Abstract

視覚から直接運動計画を効率的に予測することは、ロボティクスにおける根本的な課題です。通常の計画では、明示的な目標指定やタスク固有の設計が必要だからです。近年の視覚言語行動（VLA）モデルは、視覚入力から直接行動を推定しますが、大規模な計算資源、膨大な学習データを要求し、さらに新しいシーンに対してゼロショット性能を発揮できません。私たちは、マルチスケール特徴変調によってメートルスケールのナビゲーションとセンチメートルスケールの操作の両方を扱う統一的な画像空間拡散ポリシーを提示します。各タスクにつき自己教師ありデータはわずか5分で済みます。この枠組みを支える3つの主要な革新は次のとおりです。（1）タスクモード、深度スケール、空間的注意に対するマルチスケールFiLM条件付けにより、単一モデルでタスクに適した振る舞いを実現します。（2）軌道に整合した深度予測により、生成された経路ウェイポイントに沿った測地3D推論に焦点を当てます。（3）AnyTraverseからの自己教師あり注意によって、視覚言語モデルや深度センサーなしで、目標指向の推論を可能にします。モデルはRGB入力のみから動作します（メモリ2.0 GB、10 Hz）。その結果、オンボード実装に適したまま、未知のシーンに対して頑健なゼロショット汎化を達成します。