Abstract: ラベルなし動画から学習された潜在アクション表現は、明示的なロボットの行動(アクション)スーパービジョンなしで、ビジョン=言語=アクション(VLA)モデルを事前学習するための有望なパラダイムとして最近注目を集めています。しかし、RGB観測だけから導出される潜在アクションは主として見た目(外観)に駆動されたダイナミクスをエンコードしており、精密で接触が豊富な操作に不可欠な明示的な3D幾何学構造を欠いています。この制約に対処するため、我々はUniLACTを提案します。UniLACTは、深度に配慮した潜在事前学習を取り入れるトランスフォーマー型VLAモデルであり、下流のポリシーがより強い空間的事前知識(スパーシャル・プライア)を継承できるようにします。このプロセスを促進するために、我々はUniLARNも提案します。UniLARNは、逆ダイナミクスおよび順ダイナミクスの目的に基づく統一型潜在アクション学習フレームワークであり、RGBと深度に対して共有の埋め込み空間を学習すると同時に、それらのモダリティ間相互作用を明示的にモデル化します。この定式化により、モダリティ固有かつ統一された潜在アクション表現が生成され、UniLACTの深度に配慮した事前学習における疑似ラベルとして機能します。シミュレーションと実環境の両方での大規模な実験により、深度に配慮した統一潜在アクション表現の有効性が示されます。UniLACTは、インドメインおよびアウト・オブ・ドメインの事前学習設定のもとで、また、見えている(seen)タスクおよび見えていない(unseen)操作タスクの両方において、RGBベースの潜在アクションのベースラインを一貫して上回ります。プロジェクトページはhttps://manishgovind.github.io/unilact-vla/です。
UniLACT: 深度を考慮したRGB潜在アクション学習のためのビジョン・ランゲージ・アクション・モデル
arXiv cs.RO / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、RGBの見た目だけに頼るのではなく、3Dの幾何学的構造を取り込むことで潜在アクションの事前学習を改善する、深度を考慮したトランスフォーマー型のビジョン・ランゲージ・アクション(VLA)モデルであるUniLACTを提案する。
- さらに、逆ダイナミクスと順ダイナミクスの目的関数を用いることで、RGBと深度にまたがる共有埋め込み空間を学習し、クロスモーダル相互作用を明示的にモデル化する統一的な潜在アクション学習フレームワークであるUniLARNを導入する。
- 学習されたモーダリティ固有および統一的な潜在アクション表現は、疑似ラベルとして用いられ、深度を考慮した事前学習を可能にする。これにより、接触を伴う操作に対して下流の方策はより強い空間的な事前知識(スパーシャル・プライア)を得る。
- シミュレーションおよび実環境の両方での実験により、UniLACTは、既知タスク・未知タスクを含む、インドメイン/アウトオブドメインの事前学習において、RGBベースの潜在アクション手法を上回ることが示される。




