Chain-of-Thoughtを超えて:生成マルチモーダル埋め込みのためのユニバーサル・インターフェースとして書き換える

arXiv cs.CV / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、マルチモーダル埋め込み生成でのチェイン・オブ・ソート(CoT)活用が、冗長な推論ステップや意味の曖昧さを招き、特に検索(レトリーバル)用途で問題になり得ると指摘しています。
  • 提案手法はRIME(Rewrite-driven Multimodal Embedding)で、生成と埋め込みを同時に最適化し、検索に適した「書き換え」によって下流の検索性能を高める枠組みです。
  • さらにCross-Mode Alignment(CMA)により、生成型と判別型の埋め込み空間をつなぎ、相互検索を柔軟に切り替えることで効率と精度のトレードオフを可能にします。
  • Refine Reinforcement Learning(Refine-RL)では、判別型埋め込みを安定した意味アンカーとして用い、書き換え最適化を導く仕組みを示します。
  • MMEB-V2、MRMR、UVRBなどでの実験により、RIMEが従来の生成型埋め込みモデルを大きく上回り、かつ「考える」ための推論長も大幅に短縮できることが示されています。

Abstract

マルチモーダル 大規模言語モデル(MLLM)は、ユニバーサルなマルチモーダル埋め込みの有望な基盤として登場してきました。近年の研究では、推論駆動の生成型マルチモーダル埋め込みが、いくつかの埋め込みタスクにおいて識別型埋め込みを上回り得ることが示されています。しかし、Chain-of-Thought(CoT)推論は、冗長な思考ステップを生成しがちであり、より広い検索シナリオにおいて要約された回答に意味的な曖昧さを導入してしまいます。この制約に対処するために、本稿では、検索に適した書き換えによって生成と埋め込みを共同で最適化する統一フレームワークである、Rewrite-driven Multimodal Embedding(RIME)を提案します。同時に、生成型と識別型の埋め込み空間を橋渡しするCross-Mode Alignment(CMA)も提示し、効率と精度のトレードオフを可能にする柔軟な相互検索を実現します。これに基づき、書き換えの最適化を導くために、識別型埋め込みを安定した意味アンカーとして扱うRefine Reinforcement Learning(Refine-RL)も導入します。MMEB-V2、MRMR、UVRBに対する広範な実験の結果、RIMEは従来の生成型埋め込みモデルを大幅に上回るとともに、思考の長さを大きく削減できることを示しました。

Chain-of-Thoughtを超えて:生成マルチモーダル埋め込みのためのユニバーサル・インターフェースとして書き換える | AI Navigate