MMaDA-VLA：統合されたマルチモーダル命令と生成を備えた、大規模拡散ビジョン-言語-行動モデル

arXiv cs.RO / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MMaDA-VLAは、新しいビジョン-言語-行動（VLA）ロボット制御モデルであり、単一のネイティブな「大規模拡散」フレームワークの中でマルチモーダルの理解と生成を統合します。

Abstract

Vision-Language-Action（VLA）モデルは、視覚観測と自然言語の指示から、ロボットの操作を制御することを目指しています。しかし、既存の階層的および自己回帰的パラダイムはしばしば、アーキテクチャ上のオーバーヘッドを生み、時間的一貫性の欠如や長期ホライズンでの誤差蓄積に悩まされ、追加のモジュールなしに環境ダイナミクスを捉える仕組みを欠いています。そこで本研究では、単一の枠組みで多モーダルな理解と生成を統合する、完全にネイティブな事前学習済み大規模拡散VLAモデルであるMMaDA-VLAを提案します。本手法の重要なアイデアは、言語、画像、連続的なロボット制御を1つの離散トークン空間に埋め込み、未来のゴール観測とアクションチャンクを並列に共同生成するために、マスク付きトークンの復元（denoising）で単一のバックボーンを学習する、ネイティブな離散拡散の定式化です。反復的な復元により、順序に依存しないグローバルな洗練が可能になり、長期ホライズンでの一貫性が向上します。また、補助的な世界モデルなしに、予測された将来の視覚的な結果に基づいて行動を実現できます。シミュレーションのベンチマークおよび実世界のタスクにまたがる実験により、最先端の性能が示され、LIBEROで平均98.0%の成功率、CALVINで平均4.78の長さを達成しています。

Black Hat Asia

AI Business

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

MMaDA-VLA：統合されたマルチモーダル命令と生成を備えた、大規模拡散ビジョン-言語-行動モデル

要点

Abstract

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供