シミュレーテッド評価のための多言語・ドメイン非依存「つまる（Tip-of-the-Tongue）」クエリ生成

arXiv cs.CL / 2026/4/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、従来の英語中心のベンチマークの限界を補うため、中国語・日本語・韓国語・英語の多言語対応「Tip-of-the-Tongue（ToT）」検索テストコレクションを構築する。
LLMベースのクエリ・シミュレーション手法を用いて、プロンプト言語と情報源（ソース文書）言語が、シミュレーションされたToTクエリの再現性に与える影響を体系的に調べる。
合成クエリの妥当性は、実ユーザークエリとのシステム順位相関で検証され、ToTクエリのシミュレーションには言語を踏まえた設計が重要であることが示される。
結果として、非英語のソース文書は概して重要であり、非英語ソースだけではクエリ生成に必要な情報が不足する場合に限って英語Wikipediaが有効になり得ることが明らかにされる。
各言語5,000クエリを含む4つの大規模ToTベンチマークを公開し、英語以外で現実的なToTデータセットを作るための実践的な指針も提示する。

要旨: つい口 (Tip-of-the-Tongue; ToT) の検索ベンチマークは、これまで主に英語に焦点が当てられてきたため、多言語情報アクセスへの適用可能性が制限されています。本研究では、LLMベースのクエリ・シミュレーション・フレームワークを用いて、中国語、日本語、韓国語、英語のための多言語ToTテストコレクションを構築します。プロンプト言語および情報源ドキュメント言語が、シミュレートされたToTクエリの忠実性にどのように影響するかを体系的に調査し、システムの順位相関によって、実ユーザークエリに対して合成クエリを検証します。結果は、効果的なToTシミュレーションには言語を意識した設計が必要であることを示しています。非英語言語の情報源は一般に重要であり、非英語言語の情報源だけではクエリ生成に不十分な情報しか提供できない場合に、英語Wikipediaが有益となり得ます。これらの知見に基づき、複数の領域にわたって言語ごとに5,000クエリを含む4つのToTテストコレクションを公開します。本研究は、初めての大規模な多言語ToTベンチマークを提供するとともに、英語を超えて現実的なToTデータセットを構築するための実践的な指針を提供します。