LARY:一般化可能な視覚から行動へのアライメントを評価する、潜在アクション表現にもとづくベンチマーク
arXiv cs.RO / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、潜在アクション表現が、意味レベル(何をするか)と制御レベル(どのように行うか)の両面において、一般化可能な視覚から行動へのアライメントをどれほどうまく支えるかを検証するための、ベンチマークおよび評価フレームワークであるLARYを提案する。
- LARYは、大規模な人間の動画データと補助データから構築されており、151のアクションカテゴリにまたがる100万本超の動画を合計1,000時間分含む。さらに、620K件の画像ペアと、さまざまな身体(embodiments)や環境にまたがる595K件のモーショントラジェクトリを含む。
- 実験の結果、明示的なアクション教師なしで学習した汎用の視覚基盤モデルが、本ベンチマークにおいて、特化型の身体化潜在アクションモデルよりも優れた性能を示す。
- 本研究では、潜在ベースの視覚表現が、ピクセルベースの表現よりも、物理的な行動空間との整合性が高いことが明らかになった。
- 全体として、結果は、一般的な視覚表現が物理制御のための行動に関連する知識をエンコードしており、ピクセルの再構成よりも、意味的な抽象化を介した視覚から行動へのアプローチの方が有効である、という考えを支持する。


