RPS：強化プロンプト選択による情報の聞き出し

arXiv cs.LG / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMが自由形式の会話において、ユーザが知っているが秘匿されていたり不完全にしか表現されていなかったりする情報をどのように聞き出せるかを研究しており、アシスタント、チュータリング、法的/臨床的支援といったユースケースで重要である。
随伴する軽量な強化学習フレームワークである強化プロンプト選択（RPS）を提案し、プロンプト選択を逐次的な意思決定問題として扱うことで、対話中にプロンプトを適応的に選択する。
合成実験を用いて、強化学習エージェントがランダムなクエリ基準を上回ることが示され、方策に基づくアプローチが情報聞き出しの質を改善し得ることが示唆される。
著者らは、実在の法的事例文書から構築した新しいベンチマークデータセットであるIELegalを導入し、事例に関連する事実の対話ベースの聞き出しを評価可能にする。
IELegalベンチマークにおいて、RPSは固定的なプロンプトのベースラインを上回り、適応的なプロンプト選択が、LLM駆動の対話システムにおいて重要情報をより効果的に掘り起こせることを示している。