大規模ビジョン言語モデルにおける並列インコンテキスト学習

arXiv cs.CV / 2026/3/18

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本論文は、長いデモンストレーションをチャンクに分割して並列処理し、ロジットレベルで予測を重み付きエキスパートの積（Product-of-Experts）アンサンブルを用いて統合することで、推論レイテンシを低減する LVLM 向けの Parallel In-Context Learning（Parallel-ICL）を提案する。
本手法は、クラスタリングを用いたコンテキストチャンク化によりチャンク間の多様性を最大化し、類似度ベースの重み付けでクエリに関連するチャンクを強調する。
VQA、画像キャプション、分類を対象とした実験により、Parallel-ICL が全コンテキスト MM-ICL と同等の性能を達成しつつ、推論を大幅に高速化することを示した。
このアプローチは MM-ICL における精度と効率のトレードオフに対処し、推論オーバーヘッドを大幅に削減してダイナミックなタスク適応を可能にする。

要約: 大規模視覚言語モデル（LVLMs）は、デモンストレーション例を活用して新しいタスクへ適応するマルチモーダル・インコンテキスト学習（MM-ICL）を用います。デモンストレーションの数を増やすと性能は向上しますが、文脈長に対するTransformerのアテンションの二次計算コストにより、推論遅延が大幅に増加します。
このトレードオフに対処するため、Parallel In-Context Learning（Parallel-ICL）というプラグアンドプレイの推論アルゴリズムを提案します。Parallel-ICLは長いデモンストレーションの文脈を複数の短く、扱いやすいチャンクに分割します。これらのチャンクを並列で処理し、ロジットレベルで予測を統合します。重み付きのProduct-of-Experts（PoE）アンサンブルを用いて、全体の文脈出力を近似します。アンサンブル学習理論に導かれ、Parallel-ICLのための原理的戦略を導入します：（i）チャンク間の多様性を最大化するクラスタリングベースのコンテキストチャンク化、（ii）クエリの関連性に基づいて予測に重みを付ける類似度ベースのコンテキスト編成。VQA、画像キャプション生成、分類ベンチマークにおける広範な実験は、Parallel-ICLが全体の文脈MM-ICLと同等の性能を達成しつつ、推論速度を大幅に向上させることを示しています。本研究は、MM-ICLにおける精度と効率のトレードオフに対する有効な解決策を提供し、推論オーバーヘッドを大幅に削減した状態で動的なタスク適応を可能にします。

生成AI画像つぶやきAIアート【渾身の一枚】vol.30｜ChatGPT｜生成AI｜私の作品紹介｜アートを楽しむ｜つぶやきAIアート | アート作品 | 画像生成AI

note

AI画像生成素人の私にはFireflyくらいがちょうどいい😊

note

AIは知識編集装置である | おじの解説 | 📗 AIを組織で回す技術 015

note

６０代平社員の逆襲！ＡＩチームを雇って仮想社長に

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

大規模ビジョン言語モデルにおける並列インコンテキスト学習

要点

関連記事

生成AI画像つぶやきAIアート【渾身の一枚】vol.30｜ChatGPT｜生成AI｜私の作品紹介｜アートを楽しむ｜つぶやきAIアート | アート作品 | 画像生成AI

AI画像生成素人の私にはFireflyくらいがちょうどいい😊

AIは知識編集装置である | おじの解説 | 📗 AIを組織で回す技術 015

６０代平社員の逆襲！ＡＩチームを雇って仮想社長に

提言：CAFという“型”で成功の再現性を高める

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer