Why Multimodal In-Context Learning Lags Behind? Unveiling the Inner Mechanisms and Bottlenecks

arXiv cs.CV / 4/16/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 多モーダル・インコンテキスト学習(ICL)はゼロショットではテキストのみICLと同程度の性能を示す一方、few-shotデモンストレーションでは大きく劣化することを、同一タスク設定での体系的分析により示した。
  • マルチモーダルICLの働きを「タスクマッピング構築」と「タスクマッピング転送」に分解し、視覚とテキスト間で横断的なタスク対応を作れても、層をまたいだ転送がクエリへ確実に行われない点がボトルネックだと明らかにした。
  • 主要因として、視覚表現とテキスト表現の間で“推論レベル”のアラインメントが不足しており、その結果タスクマッピングの学習内容がクエリに安定して反映されないことを指摘した。
  • 課題の知見を踏まえ、推論段階でタスクマッピング転送を強化する簡便な改善手法を提案し、有効性につながる方向性を示した(コード公開あり)。

Abstract

In-context learning (ICL) enables models to adapt to new tasks via inference-time demonstrations. Despite its success in large language models, the extension of ICL to multimodal settings remains poorly understood in terms of its internal mechanisms and how it differs from text-only ICL. In this work, we conduct a systematic analysis of ICL in multimodal large language models. Using identical task formulations across modalities, we show that multimodal ICL performs comparably to text-only ICL in zero-shot settings but degrades significantly under few-shot demonstrations. To understand this gap, we decompose multimodal ICL into task mapping construction and task mapping transfer, and analyze how models establish cross-modal task mappings, and transfer them to query samples across layers. Our analysis reveals that current models lack reasoning-level alignment between visual and textual representations, and fail to reliably transfer learned task mappings to queries. Guided by these findings, we further propose a simple inference-stage enhancement method that reinforces task mapping transfer. Our results provide new insights into the mechanisms and limitations of multimodal ICL and suggest directions for more effective multimodal adaptation. Our code is available \href{https://github.com/deeplearning-wisc/Multimocal-ICL-Analysis-Framework-MGI}{here}.