Being-H0.7:自律視点動画から得られる潜在ワールド・アクションモデル
arXiv cs.CV / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Being-H0.7は、将来を意識した推論をロボットの視覚言語行動(VLA)制御に取り入れつつ、将来の映像フレームを生成しないことを目指した潜在型ワールド・アクションモデルである。
- 既存手法の課題(行動の教師が疎なことによるショートカット学習、そして画素空間での将来予測が制御にとって間接的でコストが高いこと)を踏まえて設計されている。
- モデルは、知覚と行動の間に学習可能な潜在クエリを挿入し、コンパクトな「推論インターフェース」として機能させることで効率と将来性を両立している。
- 学習ではデュアルブランチを用い、推論時に使う事前(prior)ブランチは現在の文脈から潜在状態を推定し、トレーニング時のみの事後(posterior)ブランチは将来観測に基づく埋め込みを用いる。
- 6つのシミュレーションベンチマークと多様な実世界タスクでの実験により、Being-H0.7はSOTAまたは同等性能を達成し、直接VLA政策の展開容易性と予測的な利点を両立していることが示されている。



