要約: 大規模視覚言語モデル(LVLMs)は、デモンストレーション例を活用して新しいタスクへ適応するマルチモーダル・インコンテキスト学習(MM-ICL)を用います。デモンストレーションの数を増やすと性能は向上しますが、文脈長に対するTransformerのアテンションの二次計算コストにより、推論遅延が大幅に増加します。
このトレードオフに対処するため、Parallel In-Context Learning(Parallel-ICL)というプラグアンドプレイの推論アルゴリズムを提案します。Parallel-ICLは長いデモンストレーションの文脈を複数の短く、扱いやすいチャンクに分割します。これらのチャンクを並列で処理し、ロジットレベルで予測を統合します。重み付きのProduct-of-Experts(PoE)アンサンブルを用いて、全体の文脈出力を近似します。 アンサンブル学習理論に導かれ、Parallel-ICLのための原理的戦略を導入します:(i)チャンク間の多様性を最大化するクラスタリングベースのコンテキストチャンク化、(ii)クエリの関連性に基づいて予測に重みを付ける類似度ベースのコンテキスト編成。VQA、画像キャプション生成、分類ベンチマークにおける広範な実験は、Parallel-ICLが全体の文脈MM-ICLと同等の性能を達成しつつ、推論速度を大幅に向上させることを示しています。本研究は、MM-ICLにおける精度と効率のトレードオフに対する有効な解決策を提供し、推論オーバーヘッドを大幅に削減した状態で動的なタスク適応を可能にします。
大規模ビジョン言語モデルにおける並列インコンテキスト学習
arXiv cs.CV / 2026/3/18
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は、長いデモンストレーションをチャンクに分割して並列処理し、ロジットレベルで予測を重み付きエキスパートの積(Product-of-Experts)アンサンブルを用いて統合することで、推論レイテンシを低減する LVLM 向けの Parallel In-Context Learning(Parallel-ICL)を提案する。
- 本手法は、クラスタリングを用いたコンテキストチャンク化によりチャンク間の多様性を最大化し、類似度ベースの重み付けでクエリに関連するチャンクを強調する。
- VQA、画像キャプション、分類を対象とした実験により、Parallel-ICL が全コンテキスト MM-ICL と同等の性能を達成しつつ、推論を大幅に高速化することを示した。
- このアプローチは MM-ICL における精度と効率のトレードオフに対処し、推論オーバーヘッドを大幅に削減してダイナミックなタスク適応を可能にする。



