マルチモーダルな身体性（エンボディメント）に配慮したナビゲーション・トランスフォーマー

arXiv cs.RO / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、環境・ロボット・センサー設定などの分布変化が衝突回避能力を損なう問題に対処するため、目標条件付きの地上ロボット向けナビゲーション手法としてViLiNTを提案しています。
ViLiNTは、RGB画像、3D LiDAR点群、目標埋め込み、エンボディメント記述子をトランスフォーマーで融合し、その出力を拡散モデルの条件付けに用いて、移動可能な経路（軌跡）を生成します。
さらに、オフラインで学習した経路クリアランス予測ヘッドにより、拡散モデルが生成した候補軌跡をスコアリング／ランキングし、安全性の高い経路を選ぶことで衝突回避を強化します。
ロボットのエンボディメントトークンを拡散モデルの条件付けと軌跡ランキングの両方に用いることで、生成・選択される軌跡がロボットの寸法に整合するようにします。
3つのシミュレーション環境で、視覚のみのベースラインNoMaDに対して平均Success Rateが166%向上し、障害物フィールドでの実世界ローバー運用によっても頑健性が確認されています。

要旨: 教師あり学習によって訓練された、地上ロボット向けの目標条件付きナビゲーション・モデルは、有望なゼロショット転移を示しますが、それでも衝突回避能力は分布シフト、すなわち環境・ロボット・センサー構成の変化のもとで低下します。そこで本研究では、複数のプラットフォームおよび環境から得られた異種データで訓練した、目標ナビゲーションのためのマルチモーダルかつ注意機構（attention）ベースの方策 ViLiNT を提案します。これにより、2つの主要な特徴によって頑健性を向上させます。第一に、RGB画像、3D LiDAR点群、目標埋め込み（goal embedding）、およびロボットの身体（embodiment）記述子を、トランスフォーマー・アーキテクチャにより融合し、補完的な幾何情報と外観（appearance）の手がかりを捉えます。トランスフォーマーの出力は、拡散モデルを条件付けるために用いられ、拡散モデルは移動可能な軌道（ナビゲータブルなトラジェクトリ）を生成します。第二に、自動生成したオフラインのラベルを用いて、拡散モデルが生成した軌道を評価・順位付けするための経路クリアランス予測ヘッド（path clearance prediction head）を訓練します。拡散の条件付けと軌道の順位付けヘッドは、ロボットの身体トークンに依存し、これにより本モデルはロボットの寸法に応じた軌道を生成・選択できます。3つのシミュレーション環境において、ViLiNT は同等の最先端ビジョンのみのベースライン（NoMaD）に比べて平均で Success Rate を 166\% 向上させます。この性能向上は、障害物フィールドを走行するローバーを用いた実環境での展開によっても確認されます。これらの結果は、マルチモーダル融合と、提案する衝突予測メカニズムを組み合わせることで、オフロード走行のナビゲーション頑健性が向上することを示しています。

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

Reddit r/LocalLLaMA

マルチモーダルな身体性（エンボディメント）に配慮したナビゲーション・トランスフォーマー

要点

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer