ThinkJEPA：大規模視覚言語推論モデルによって潜在世界モデルを強化する

arXiv cs.RO / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、短い観測ウィンドウを用いる潜在世界モデルが抱える制限に取り組む。これは局所的に偏った外挿や、下流タスクにおける長期ホライズンの意味論が弱くなる原因となり得る。
提案手法はThinkJEPAであり、VLMによって導かれるJEPAスタイルの潜在世界モデリングの枠組みを採用する。双方向（デュアル・テンポラル）経路として、微細なダイナミクスのための高密度JEPA分岐と、意味的ガイダンスのためにストライドを大きくした均一サンプリングのVLM「シンカー」分岐を用いる。
言語志向のVLM表現と、高密度な潜在予測ニーズとのギャップを埋めるために、階層的なピラミッド表現抽出モジュールを導入する。これは、複数層のVLM特徴を集約して、互換性のあるガイダンス信号を生成する。
ハンド操作の軌跡予測に関する実験では、ThinkJEPAがVLMのみおよびJEPA-predictorの双方のベースラインを上回り、長期ロールアウトにおいて頑健性も向上することが示される。

Abstract

潜在世界モデル（例：V-JEPA2）における最近の進展は、ビデオ観測から将来の世界状態を予測する有望な能力を示してきました。それでも、短い観測ウィンドウに基づく緻密な予測は時間的文脈を制限し、予測器を局所的な低レベルの外挿へと偏らせてしまうため、長期（ロングホライズン）の意味論を捉えにくくなり、下流での有用性も低下します。これに対し、視覚—言語モデル（VLM）は、均一にサンプリングされたフレームを介して推論することで強い意味的基盤と一般知識を提供しますが、単体の緻密な予測器としては理想的ではありません。理由は、計算駆動の疎なサンプリング、微細な相互作用状態をテキスト指向の表現へと圧縮する言語出力ボトルネック、小規模な行動条件付きデータセットへ適応する際のデータ体制の不一致があるためです。そこで本研究では、二重時間（dual-temporal）経路によって、密なフレームのダイナミクスモデリングと長期の意味的ガイダンスを組み合わせる、VLM誘導のJEPAスタイルの潜在世界モデリングフレームワークを提案します。具体的には、微細な運動および相互作用の手がかりのための緻密なJEPAブランチと、知識に富んだガイダンスのためにより大きな時間ストライドを持つ、均一サンプリングのVLM \emph{thinker} ブランチです。VLMの段階的な推論信号を効果的に転移するために、階層ピラミッド表現抽出モジュールを導入します。このモジュールは、多層のVLM表現を集約して、潜在予測と互換なガイダンス特徴を生成します。手の操作による軌跡予測に関する実験では、提案手法が強力なVLMのみのベースラインとJEPA予測器ベースラインの両方を上回り、より頑健な長期ロールアウト挙動を実現することが示されました。

Black Hat Asia

AI Business

AIの知能の爆発で、人間の薬剤師はどうなる？

note

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

note

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

note

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

note

ThinkJEPA：大規模視覚言語推論モデルによって潜在世界モデルを強化する

要点

Abstract

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む 都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査