テキスト条件付きJEPAによる意味的に豊かな視覚表現の学習

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己教師あり学習でより意味的に豊かな視覚表現を獲得することを目的に、I-JEPAのテキスト条件付き版であるText-Conditional JEPA(TC-JEPA)を提案しています。
  • TC-JEPAは、画像キャプションを用い、キャプションのトークンに対して疎なクロスアテンションを行うきめ細かなテキスト・コンディショナーによって、マスク位置での予測不確実性を低減します。
  • 著者らは、下流タスクにおける性能向上と学習の安定性の改善、ならびに有望なスケーリング特性の示唆を報告しています。
  • さらにTC-JEPAは、特徴予測のみで行う新しい視覚言語の事前学習パラダイムとしても位置づけられ、多様なタスクでコントラスト学習より優れていると述べられています(特に、微細な視覚理解や推論が必要な領域)。
  • 本研究はarXiv(arXiv:2605.03245v1)の新規アナウンスとして共有されており、製品リリースというより研究段階の進展を示すものです。