要約: ビデオアクションモデル(VAMs)は、複雑な操作タスクに対する強力な視覚的予知能力のおかげで、ロボット学習の有望なパラダイムとして浮上してきました。しかし、現在のVAMsは、通常、遅いマルチステップのビデオ生成またはノイズの多いワンステップの特徴抽出のいずれかに依存しており、リアルタイム推論と高忠実度の予知を同時に保証することはできません。この制限に対処するため、単一のフォワードパスで一貫した幾何的および意味的表現を予見するショートカット・ビデオアクションモデル(S-VAM)を提案します。安定した設計図として機能するこれらの予見表現は、行動予測を著しく単純化します。この効率的なショートカットを実現するため、マルチステップのデノイジングにおける構造化生成事前情報をワンステップ推論に凝縮する新しい自己蒸留戦略を導入します。具体的には、拡散モデル自身のマルチステップ生成動画から抽出された視覚基盤モデル(VFM)の表現が教師ターゲットを提供します。軽量デコプラーは生徒として、ノイズの多いワンステップの特徴をこれらのターゲットへ直接写像することを学習します。シミュレーションと現実世界での広範な実験は、我々のS-VAMが最先端手法を上回り、複雑な環境での効率的かつ正確な操作を可能にすることを示しています。プロジェクトページは https://haodong-yan.github.io/S-VAM/
S-VAM: 自己蒸留による幾何的・意味的予見を備えたショートカット動画-アクションモデル
arXiv cs.CV / 2026/3/18
📰 ニュースModels & Research
要点
- S-VAM は、単一のフォワードパスで整合性のある幾何的および意味的表現を予見するショートカット動画-アクションモデルを導入し、操作タスクのリアルタイム推論を実現します。
- 本手法は自己蒸留戦略を用い、複数ステップのデノイズ前知識を1ステップの推論に凝縮します。
- 拡散モデルの多段生成動画から得られるビジョン・ファウンデーションモデルの表現を教師ターゲットとして用い、軽量なデカップラーがノイズの多い1ステップ特徴をこれらのターゲットへ写像することを学習します。
- シミュレーションおよび実ロボットでの広範な実験により、S-VAM が効率と精度の点で最先端手法を上回ることを実証します。
- プロジェクトページには、アプローチを評価するための詳細とリソースが提供されています。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning