Being-H0.7:自律視点動画から得られる潜在ワールド・アクションモデル

arXiv cs.CV / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Being-H0.7は、将来を意識した推論をロボットの視覚言語行動(VLA)制御に取り入れつつ、将来の映像フレームを生成しないことを目指した潜在型ワールド・アクションモデルである。
  • 既存手法の課題(行動の教師が疎なことによるショートカット学習、そして画素空間での将来予測が制御にとって間接的でコストが高いこと)を踏まえて設計されている。
  • モデルは、知覚と行動の間に学習可能な潜在クエリを挿入し、コンパクトな「推論インターフェース」として機能させることで効率と将来性を両立している。
  • 学習ではデュアルブランチを用い、推論時に使う事前(prior)ブランチは現在の文脈から潜在状態を推定し、トレーニング時のみの事後(posterior)ブランチは将来観測に基づく埋め込みを用いる。
  • 6つのシミュレーションベンチマークと多様な実世界タスクでの実験により、Being-H0.7はSOTAまたは同等性能を達成し、直接VLA政策の展開容易性と予測的な利点を両立していることが示されている。

Abstract

視覚-言語-行動モデル(VLA)は、多モーダルな観測と言語による指示を直接行動へ写像することで汎用ロボット制御を大きく前進させてきましたが、行動に対する監督が疎であることは、ダイナミクス、接触、タスク進行の表現ではなく、ショートカット的な写像を促しがちです。近年の世界-行動モデルはビデオのロールアウトによって未来予測を導入していますが、ピクセル空間での予測は制御にとって高コストで間接的な基盤です。なぜなら、行動生成に無関係な視覚的詳細をモデル化してしまう可能性があり、さらに学習または推論のオーバーヘッドが大きくなるからです。本論文では、将来を意識した推論をVLAスタイルの方策へ持ち込みつつ、将来フレームを生成しない潜在世界-行動モデルであるBeing-H0.7を提案します。Being-H0.7は、知覚と行動の間に学習可能な潜在クエリを挿入することで、それをコンパクトな推論インターフェースとして機能させます。そして、未来に基づくデュアルブランチ設計によってそれらを訓練します。すなわち、デプロイ可能な事前(prior)ブランチが現在の文脈から潜在状態を推定する一方、学習時専用の事後(posterior)ブランチはクエリを将来の観測から得た埋め込みで置き換えます。潜在推論空間において両ブランチを共同で整合させることで、priorブランチは、現在の観測だけから未来を意識した、行動に有用な構造を推論できるようになります。推論時には、Being-H0.7はposteriorブランチを破棄し、視覚ロールアウトを行いません。6つのシミュレーションのベンチマークと多様な実世界タスクにわたる実験により、Being-H0.7は最先端または同等の性能を達成し、世界モデルの予測的な利点と、直接VLA方策の効率性およびデプロイ可能性を組み合わせることが示されます。