概要: 動画-アクション・モデル(VAMs)は、身体化された知能のための有望な枠組みとして登場してきました。生の動画ストリームから暗黙の世界ダイナミクスを学習し、時間的に一貫した行動予測を生成します。これらのモデルは視覚推論によって長いホライズンの課題で強い性能を示す一方で、重要な相互作用状態が視覚だけでは部分的にしか観測されない、接触が多いシナリオでは依然として限界があります。特に、きめ細かな力の調節や接触遷移は視覚トークンに確実に符号化されず、その結果、不安定または不正確な挙動につながります。このギャップを埋めるために、触覚を補完的なグラウンディング信号として取り込むマルチモーダル世界モデル化フレームワークである「動画-触覚アクション・モデル(VTAM)」を提案します。VTAMは、軽量なモダリティ転送のファインチューニングによって、事前学習済みの動画トランスフォーマに触覚ストリームを追加し、触覚-言語のペアデータや独立した触覚の事前学習を必要とせずに、効率的なクロスモーダル表現学習を可能にします。マルチモーダル融合を安定化させるために、クロスモーダル注意のバランスを強制する触覚正則化損失を導入し、行動モデルにおける視覚潜在の優位を防ぎます。VTAMは接触が多い操作において優れた性能を示し、平均で成功率90パーセントを維持します。高い忠実度での力の認識が必要なポテトチップのピックアンドプレースのような困難なシナリオでは、VTAMはpi 0.5ベースラインを80パーセント上回ります。これらの結果は、触覚フィードバックを統合することが、世界の行動モデルにおける視覚推定誤りを修正するうえで不可欠であり、物理的に基盤づけられた身体化ファウンデーション・モデルに対するスケーラブルなアプローチを提供することを示しています。
VTAM: VLAsを超える複雑な物理的相互作用のためのビデオ・触覚・アクション・モデル
arXiv cs.RO / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のビデオ・アクション/ワールドモデルが、接触が多いマニピュレーションにおいて苦戦している理由として、重要な相互作用状態(例:力の調節や接触遷移)が、視覚からは部分的にしか観測できない点を挙げている。
- そこで、VTAMはマルチモーダルなワールドモデリングの枠組みとして提案されており、事前学習済みのビデオトランスフォーマに、軽量なモダリティ・トランスファーのファインチューニングを通じて触覚ストリームを拡張する。
- VTAMは、触覚と言語のペアデータや、個別に事前学習された触覚モデルを必要とせずに、異モーダル間の表現を効率よく学習することを目的としている。
- マルチモーダル融合の安定性を高めるために、本手法は触覚正則化損失を追加し、モーダル間の注意がバランスよくなることを促し、視覚潜在が支配するのを防ぐ。
- 実験では、接触が多いタスクで平均90%の成功率が報告されており、ポテトチップのピック&プレースのような高精度な力の認識が必要なシナリオにおいて、pi 0.5ベースラインに対して平均80%の改善が示されている。




