ThinkJEPA:大規模視覚言語推論モデルによって潜在世界モデルを強化する
arXiv cs.RO / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、短い観測ウィンドウを用いる潜在世界モデルが抱える制限に取り組む。これは局所的に偏った外挿や、下流タスクにおける長期ホライズンの意味論が弱くなる原因となり得る。
- 提案手法はThinkJEPAであり、VLMによって導かれるJEPAスタイルの潜在世界モデリングの枠組みを採用する。双方向(デュアル・テンポラル)経路として、微細なダイナミクスのための高密度JEPA分岐と、意味的ガイダンスのためにストライドを大きくした均一サンプリングのVLM「シンカー」分岐を用いる。
- 言語志向のVLM表現と、高密度な潜在予測ニーズとのギャップを埋めるために、階層的なピラミッド表現抽出モジュールを導入する。これは、複数層のVLM特徴を集約して、互換性のあるガイダンス信号を生成する。
- ハンド操作の軌跡予測に関する実験では、ThinkJEPAがVLMのみおよびJEPA-predictorの双方のベースラインを上回り、長期ロールアウトにおいて頑健性も向上することが示される。




