統一マルチモーダル検索のためのボトルネック・トークン

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、デコーダー型マルチモーダルLLMの「統一マルチモーダル検索」適用における構造的ギャップ(暗黙プーリングの限界と、コントラスト学習のトークン圧縮指導不足)を指摘している。
  • 解決策として、少数の学習可能なBottleneck Tokens(BToks)を導入し、固定容量の明示的なプーリングとして系列情報を圧縮・集約する設計を提案している。
  • 学習では「Generative Information Condensation」を用い、次トークン予測に加えてCondensation Maskで対象トークンからクエリトークンへの直接的な注意経路を遮断することで、予測信号をBToks経由に強制し、トークンレベルの圧縮監督を実現している。
  • 推論時は入力とBToksの単一フォワードで済み、従来のlast-tokenプーリングと比べてオーバーヘッドは小さいと述べており、MMEB-V2で2B規模手法の中でSOTA(Overall 59.0、Video-QAで+12.6)を報告している。

Abstract

デコーダのみのマルチモーダル大規模言語モデル(MLLM)を統一的なマルチモーダル検索に適応する際には、2つの構造的ギャップがあります。第一に、既存手法は暗黙のプーリングに依存しており、標準的な語彙トークン(例:)の隠れ状態をシーケンス全体の表現として過負荷に用いますが、これは情報集約のために設計されたメカニズムではありません。第二に、コントラスティブな微調整は、埋め込みが一致すべき対象を指定するものの、情報をそれへどのように圧縮すべきかについてのトークンレベルの指針を提供していません。私たちは、この2つのギャップを補完的な2つのコンポーネントで解決します。設計として、固定容量の明示的プーリング手段として機能する少数の学習可能トークンであるBottleneck Tokens(BToks)を導入します。学習においては、次トークン予測目的と、ターゲットトークンからクエリトークンへの直接の注意(アテンション)経路を遮断するCondensation Maskを組み合わせたGenerative Information Condensationを提案します。これにより、すべての予測シグナルはBToksを通ることを強制され、生成損失が意味圧縮のための高密度なトークンレベルの教師信号へと変換されます。推論時には、入力とBToksのみを単一のフォワードパスで処理し、従来の最後のトークンプーリングに対してほとんど無視できるオーバーヘッドで済みます。MMEB-V2(78データセット、3モダリティ、9メタタスク)において、私たちの手法は、同等のデータ条件下で2B規模の手法の中で最先端の性能を達成し、Overallスコア59.0(VLM2Vec-V2に対して+3.6)を獲得しました。さらに、意味的に要求の高いタスク(例:Video-QAで+12.6)で大幅な向上を示しています。