統一マルチモーダル検索のためのボトルネック・トークン
arXiv cs.LG / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、デコーダー型マルチモーダルLLMの「統一マルチモーダル検索」適用における構造的ギャップ(暗黙プーリングの限界と、コントラスト学習のトークン圧縮指導不足)を指摘している。
- 解決策として、少数の学習可能なBottleneck Tokens(BToks)を導入し、固定容量の明示的なプーリングとして系列情報を圧縮・集約する設計を提案している。
- 学習では「Generative Information Condensation」を用い、次トークン予測に加えてCondensation Maskで対象トークンからクエリトークンへの直接的な注意経路を遮断することで、予測信号をBToks経由に強制し、トークンレベルの圧縮監督を実現している。
- 推論時は入力とBToksの単一フォワードで済み、従来のlast-tokenプーリングと比べてオーバーヘッドは小さいと述べており、MMEB-V2で2B規模手法の中でSOTA(Overall 59.0、Video-QAで+12.6)を報告している。




