LARY:一般化可能な視覚から行動へのアライメントを評価する、潜在アクション表現にもとづくベンチマーク

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、潜在アクション表現が、意味レベル(何をするか)と制御レベル(どのように行うか)の両面において、一般化可能な視覚から行動へのアライメントをどれほどうまく支えるかを検証するための、ベンチマークおよび評価フレームワークであるLARYを提案する。
  • LARYは、大規模な人間の動画データと補助データから構築されており、151のアクションカテゴリにまたがる100万本超の動画を合計1,000時間分含む。さらに、620K件の画像ペアと、さまざまな身体(embodiments)や環境にまたがる595K件のモーショントラジェクトリを含む。
  • 実験の結果、明示的なアクション教師なしで学習した汎用の視覚基盤モデルが、本ベンチマークにおいて、特化型の身体化潜在アクションモデルよりも優れた性能を示す。
  • 本研究では、潜在ベースの視覚表現が、ピクセルベースの表現よりも、物理的な行動空間との整合性が高いことが明らかになった。
  • 全体として、結果は、一般的な視覚表現が物理制御のための行動に関連する知識をエンコードしており、ピクセルの再構成よりも、意味的な抽象化を介した視覚から行動へのアプローチの方が有効である、という考えを支持する。

Abstract

明示的な行動データの不足はVision-Language-Action(VLA)モデルを制限するものの、人間の行動動画はラベル未付与でありながらスケーラブルなデータソースを提供します。大規模な人間の動画データセットを活用するうえでの重要な課題は、視覚的な信号を、オントロジーに依存しない表現である「潜在行動(latent actions)」へと変換することです。しかし、潜在行動表現が視覚観測から頑健な制御を導ける能力については、これまで厳密に評価されていません。本研究では、潜在行動表現の収益性(Latent Action Representation Yielding; LARY)ベンチマークを導入します。これは、潜在行動表現を高レベルの意味的行動(何をするか)と低レベルのロボット制御(どうやって行うか)の両方について評価するための統一された枠組みです。包括的にキュレーションされたデータセットには、151の行動カテゴリにまたがる100万本超の動画(1,000時間)が含まれるほか、さまざまな実体化(embodiment)と環境において620K枚の画像ペアおよび595K本のモーショントラジェクトリが含まれます。実験の結果、次の2つの重要な知見が得られました。(i)行動の教師信号を一切用いずに学習した一般的な視覚基盤モデルは、専用の実体化された潜在行動モデルを一貫して上回ります。(ii)潜在に基づく視覚空間は、ピクセルに基づく空間よりも本質的に物理的行動空間とより整合しています。これらの結果は、一般的な視覚表現が物理制御に必要な知識を本来的に符号化しており、また意味レベルでの抽象化が、ピクセルレベルでの再構成よりも根本的に有効な経路として「視覚から行動」へつながることを示唆しています。