Why Multimodal In-Context Learning Lags Behind? Unveiling the Inner Mechanisms and Bottlenecks
arXiv cs.CV / 4/16/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 多モーダル・インコンテキスト学習(ICL)はゼロショットではテキストのみICLと同程度の性能を示す一方、few-shotデモンストレーションでは大きく劣化することを、同一タスク設定での体系的分析により示した。
- マルチモーダルICLの働きを「タスクマッピング構築」と「タスクマッピング転送」に分解し、視覚とテキスト間で横断的なタスク対応を作れても、層をまたいだ転送がクエリへ確実に行われない点がボトルネックだと明らかにした。
- 主要因として、視覚表現とテキスト表現の間で“推論レベル”のアラインメントが不足しており、その結果タスクマッピングの学習内容がクエリに安定して反映されないことを指摘した。
- 課題の知見を踏まえ、推論段階でタスクマッピング転送を強化する簡便な改善手法を提案し、有効性につながる方向性を示した(コード公開あり)。
Related Articles

Introducing Claude Opus 4.7
Anthropic News

Who Audits the Auditors? Building an LLM-as-a-Judge for Agentic Reliability
Dev.to

"Enterprise AI Cost Optimization: How Companies Are Cutting AI Infrastructure Sp
Dev.to

Config-first code generator to replace repetitive AI boilerplate — looking for feedback and collaborators
Dev.to

The US Government Fired 40% of an Agency, Then Asked AI to Do Their Jobs
Dev.to