なぜマルチモーダル・インコンテキスト学習は遅れを取るのか?内的メカニズムとボトルネックの解明

arXiv cs.CV / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 多モーダル・インコンテキスト学習(ICL)はゼロショットではテキストのみICLと同程度の性能を示す一方、few-shotデモンストレーションでは大きく劣化することを、同一タスク設定での体系的分析により示した。
  • マルチモーダルICLの働きを「タスクマッピング構築」と「タスクマッピング転送」に分解し、視覚とテキスト間で横断的なタスク対応を作れても、層をまたいだ転送がクエリへ確実に行われない点がボトルネックだと明らかにした。
  • 主要因として、視覚表現とテキスト表現の間で“推論レベル”のアラインメントが不足しており、その結果タスクマッピングの学習内容がクエリに安定して反映されないことを指摘した。
  • 課題の知見を踏まえ、推論段階でタスクマッピング転送を強化する簡便な改善手法を提案し、有効性につながる方向性を示した(コード公開あり)。

要旨: インコンテキスト学習(ICL)は、推論時のデモンストレーションを通じて、モデルが新しいタスクに適応することを可能にする。大規模言語モデルにおいては成功を収めているにもかかわらず、多モーダル環境へのICLの拡張は、その内部メカニズムやテキストのみのICLとどのように異なるのかという点で、いまだ十分に理解されていない。本研究では、多モーダル大規模言語モデルにおけるICLを体系的に分析する。同一のタスク定式化をモダリティ間で用いることで、多モーダルICLがゼロショット設定ではテキストのみのICLと同等に機能する一方、少数ショットのデモンストレーション下では大きく性能が低下することを示す。このギャップを理解するために、我々は多モーダルICLを「タスク・マッピング構築」と「タスク・マッピング転送」に分解し、モデルがどのようにクロスモーダルなタスク・マッピングを確立し、それを層をまたいでクエリ・サンプルへと転送するのかを分析する。その結果、現在のモデルは視覚表現とテキスト表現の間で推論レベルの整合性を欠いており、学習したタスク・マッピングをクエリへ確実に転送できないことが明らかになった。これらの知見に導かれて、タスク・マッピング転送を強化する、簡単な推論段階での改良手法もさらに提案する。我々の結果は、多モーダルICLのメカニズムと限界に関する新たな洞察を提供し、より効果的な多モーダル適応のための方向性を示唆する。コードは
g\href{https://github.com/deeplearning-wisc/Multimocal-ICL-Analysis-Framework-MGI}{こちら} で利用可能である。