Bottleneck Tokens for Unified Multimodal Retrieval
arXiv cs.LG / 4/14/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 本論文は、デコーダー型マルチモーダルLLMの「統一マルチモーダル検索」適用における構造的ギャップ(暗黙プーリングの限界と、コントラスト学習のトークン圧縮指導不足)を指摘している。
- 解決策として、少数の学習可能なBottleneck Tokens(BToks)を導入し、固定容量の明示的なプーリングとして系列情報を圧縮・集約する設計を提案している。
- 学習では「Generative Information Condensation」を用い、次トークン予測に加えてCondensation Maskで対象トークンからクエリトークンへの直接的な注意経路を遮断することで、予測信号をBToks経由に強制し、トークンレベルの圧縮監督を実現している。
- 推論時は入力とBToksの単一フォワードで済み、従来のlast-tokenプーリングと比べてオーバーヘッドは小さいと述べており、MMEB-V2で2B規模手法の中でSOTA(Overall 59.0、Video-QAで+12.6)を報告している。
Related Articles

Emerging Properties in Unified Multimodal Pretraining
Dev.to

Build a Profit-Generating AI Agent with LangChain: A Step-by-Step Tutorial
Dev.to

Open source AI is winning — but here's why I still pay $2/month for Claude API
Dev.to

AI Agents Need Real Email Infrastructure
Dev.to

Beyond the Prompt: Why AI Agents Are Hitting the Deployment Wall
Dev.to