広告

ThinkJEPA:大規模視覚言語推論モデルによって潜在世界モデルを強化する

arXiv cs.RO / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、短い観測ウィンドウを用いる潜在世界モデルが抱える制限に取り組む。これは局所的に偏った外挿や、下流タスクにおける長期ホライズンの意味論が弱くなる原因となり得る。
  • 提案手法はThinkJEPAであり、VLMによって導かれるJEPAスタイルの潜在世界モデリングの枠組みを採用する。双方向(デュアル・テンポラル)経路として、微細なダイナミクスのための高密度JEPA分岐と、意味的ガイダンスのためにストライドを大きくした均一サンプリングのVLM「シンカー」分岐を用いる。
  • 言語志向のVLM表現と、高密度な潜在予測ニーズとのギャップを埋めるために、階層的なピラミッド表現抽出モジュールを導入する。これは、複数層のVLM特徴を集約して、互換性のあるガイダンス信号を生成する。
  • ハンド操作の軌跡予測に関する実験では、ThinkJEPAがVLMのみおよびJEPA-predictorの双方のベースラインを上回り、長期ロールアウトにおいて頑健性も向上することが示される。

Abstract

潜在世界モデル(例:V-JEPA2)における最近の進展は、ビデオ観測から将来の世界状態を予測する有望な能力を示してきました。それでも、短い観測ウィンドウに基づく緻密な予測は時間的文脈を制限し、予測器を局所的な低レベルの外挿へと偏らせてしまうため、長期(ロングホライズン)の意味論を捉えにくくなり、下流での有用性も低下します。これに対し、視覚—言語モデル(VLM)は、均一にサンプリングされたフレームを介して推論することで強い意味的基盤と一般知識を提供しますが、単体の緻密な予測器としては理想的ではありません。理由は、計算駆動の疎なサンプリング、微細な相互作用状態をテキスト指向の表現へと圧縮する言語出力ボトルネック、小規模な行動条件付きデータセットへ適応する際のデータ体制の不一致があるためです。そこで本研究では、二重時間(dual-temporal)経路によって、密なフレームのダイナミクスモデリングと長期の意味的ガイダンスを組み合わせる、VLM誘導のJEPAスタイルの潜在世界モデリングフレームワークを提案します。具体的には、微細な運動および相互作用の手がかりのための緻密なJEPAブランチと、知識に富んだガイダンスのためにより大きな時間ストライドを持つ、均一サンプリングのVLM \emph{thinker} ブランチです。VLMの段階的な推論信号を効果的に転移するために、階層ピラミッド表現抽出モジュールを導入します。このモジュールは、多層のVLM表現を集約して、潜在予測と互換なガイダンス特徴を生成します。手の操作による軌跡予測に関する実験では、提案手法が強力なVLMのみのベースラインとJEPA予測器ベースラインの両方を上回り、より頑健な長期ロールアウト挙動を実現することが示されました。

広告
ThinkJEPA:大規模視覚言語推論モデルによって潜在世界モデルを強化する | AI Navigate