VTAM: VLAsを超える複雑な物理的相互作用のためのビデオ・触覚・アクション・モデル

arXiv cs.RO / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存のビデオ・アクション／ワールドモデルが、接触が多いマニピュレーションにおいて苦戦している理由として、重要な相互作用状態（例：力の調節や接触遷移）が、視覚からは部分的にしか観測できない点を挙げている。
そこで、VTAMはマルチモーダルなワールドモデリングの枠組みとして提案されており、事前学習済みのビデオトランスフォーマに、軽量なモダリティ・トランスファーのファインチューニングを通じて触覚ストリームを拡張する。
VTAMは、触覚と言語のペアデータや、個別に事前学習された触覚モデルを必要とせずに、異モーダル間の表現を効率よく学習することを目的としている。
マルチモーダル融合の安定性を高めるために、本手法は触覚正則化損失を追加し、モーダル間の注意がバランスよくなることを促し、視覚潜在が支配するのを防ぐ。
実験では、接触が多いタスクで平均90%の成功率が報告されており、ポテトチップのピック＆プレースのような高精度な力の認識が必要なシナリオにおいて、pi 0.5ベースラインに対して平均80%の改善が示されている。

概要: 動画-アクション・モデル（VAMs）は、身体化された知能のための有望な枠組みとして登場してきました。生の動画ストリームから暗黙の世界ダイナミクスを学習し、時間的に一貫した行動予測を生成します。これらのモデルは視覚推論によって長いホライズンの課題で強い性能を示す一方で、重要な相互作用状態が視覚だけでは部分的にしか観測されない、接触が多いシナリオでは依然として限界があります。特に、きめ細かな力の調節や接触遷移は視覚トークンに確実に符号化されず、その結果、不安定または不正確な挙動につながります。このギャップを埋めるために、触覚を補完的なグラウンディング信号として取り込むマルチモーダル世界モデル化フレームワークである「動画-触覚アクション・モデル（VTAM）」を提案します。VTAMは、軽量なモダリティ転送のファインチューニングによって、事前学習済みの動画トランスフォーマに触覚ストリームを追加し、触覚-言語のペアデータや独立した触覚の事前学習を必要とせずに、効率的なクロスモーダル表現学習を可能にします。マルチモーダル融合を安定化させるために、クロスモーダル注意のバランスを強制する触覚正則化損失を導入し、行動モデルにおける視覚潜在の優位を防ぎます。VTAMは接触が多い操作において優れた性能を示し、平均で成功率90パーセントを維持します。高い忠実度での力の認識が必要なポテトチップのピックアンドプレースのような困難なシナリオでは、VTAMはpi 0.5ベースラインを80パーセント上回ります。これらの結果は、触覚フィードバックを統合することが、世界の行動モデルにおける視覚推定誤りを修正するうえで不可欠であり、物理的に基盤づけられた身体化ファウンデーション・モデルに対するスケーラブルなアプローチを提供することを示しています。

Black Hat Asia

AI Business

AIの知能の爆発で、人間の薬剤師はどうなる？

note

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

note

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

note

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

note

VTAM: VLAsを超える複雑な物理的相互作用のためのビデオ・触覚・アクション・モデル

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む 都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査