概要: マルチモーダル学習の台頭により、画像検索は視覚情報を自然言語クエリに結びつける上で重要な役割を担っています。既存の画像リトリーバは、長いテキストの処理や、ユーザーの表現が不明確な場合への対応が難しいという課題を抱えています。これらの問題に対処するため、画像検索領域に会話型クエリ書き換え(CQR)タスクを導入し、専用のマルチターン対話クエリ書き換えデータセットを構築します。完全な対話履歴に基づいて、CQRはユーザーの最終クエリを、検索により適した、簡潔で意味的に完結したものへと書き換えます。具体的には、まず大規模言語モデル(LLM)を活用して、書き換え候補を大規模に生成し、次に、手動レビューと組み合わせたLLM-as-Judgeメカニズムを用いて、約7,000件の高品質なマルチモーダル対話を厳選し、ReCQRデータセットを形成します。さらに、ReCQRデータセット上でいくつかの最先端(SOTA)のマルチモーダルモデルをベンチマークし、画像検索における性能を評価します。実験結果は、CQRが従来の画像検索モデルの精度を大幅に向上させるだけでなく、マルチモーダルシステムにおけるユーザーのクエリをモデリングするための新しい方向性と洞察も提供することを示しています。
ReCQR:対話型クエリ書き換えを組み込んでマルチモーダル画像検索を改善する
arXiv cs.AI / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長すぎる、あるいは意図が不明確なユーザーテキストクエリに起因する問題に焦点を当て、マルチモーダル画像検索のための新しいタスクとして対話型クエリ書き換え(CQR)を導入することで、ReCQRを提案する。
- LLMを用いて大規模に候補書き換えを生成し、さらに「LLM-as-judge(LLMによる評価)」と手動レビューのプロセスにより、約7,000件の高品質な対話データセットを厳選して構築する。
- CQRは、対話の全履歴を用いてユーザの最終クエリを書き換え、簡潔で意味的に完結した形にすることで、クエリを検索に適したものにすることを目指す。
- 著者らは、ReCQRデータセット上で最先端のマルチモーダル検索モデルをベンチマークし、CQRが検索精度を大きく改善することを示す。
- 本研究は、検索の前にマルチモーダルシステムが対話型のユーザ意図をどのように解釈し変換すべきか、というより広いモデル化の方向性を示唆する。



