Chain-of-Thoughtを超えて:生成マルチモーダル埋め込みのためのユニバーサル・インターフェースとして書き換える
arXiv cs.CV / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、マルチモーダル埋め込み生成でのチェイン・オブ・ソート(CoT)活用が、冗長な推論ステップや意味の曖昧さを招き、特に検索(レトリーバル)用途で問題になり得ると指摘しています。
- 提案手法はRIME(Rewrite-driven Multimodal Embedding)で、生成と埋め込みを同時に最適化し、検索に適した「書き換え」によって下流の検索性能を高める枠組みです。
- さらにCross-Mode Alignment(CMA)により、生成型と判別型の埋め込み空間をつなぎ、相互検索を柔軟に切り替えることで効率と精度のトレードオフを可能にします。
- Refine Reinforcement Learning(Refine-RL)では、判別型埋め込みを安定した意味アンカーとして用い、書き換え最適化を導く仕組みを示します。
- MMEB-V2、MRMR、UVRBなどでの実験により、RIMEが従来の生成型埋め込みモデルを大きく上回り、かつ「考える」ための推論長も大幅に短縮できることが示されています。

