自然言語によるフィードバックから学ぶパーソナライズされた質問応答

arXiv cs.CL / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本論文は、質問応答におけるLLMのパーソナライズでは、RAGに続いてスカラー報酬による強化学習を行う手法が一般的だが、これらの報酬は弱く、パーソナライズを学ぶうえで有益な指示になりにくいと主張しています。
その代わりとして、ユーザープロファイルと質問の物語（ナラティブ）に基づいて生成される自然言語フィードバック（NLF）を用いる、パーソナライズされた応答生成の枠組みVACを提案しています。
学習ではフィードバックモデルの最適化と、改善された応答に基づくポリシーモデルの微調整を交互に行い、その結果として推論時にはフィードバックを必要としないポリシーを得ます。
LaMP-QAベンチマーク（3つの多様な領域）で、従来の最先端手法よりも一貫して大きな改善が見られ、ヒト評価でも生成応答の質が高いことが確認されています。
総じて本研究は、NLFがパーソナライズされたQAの最適化において、より豊かで実行可能な教師信号になることを示しています。

Abstract

パーソナライズは、特に質問応答のような情報探索タスクにおいて、言語技術の有効性とユーザー満足の両方を高めるために重要である。大規模言語モデル（LLM）をパーソナライズするための現在のアプローチの多くは、検索拡張生成（RAG）に続いて、取得した個人的な文脈をどのように用いるべきかを学習させるために、スカラー報酬信号による強化学習に依存している。我々は、これらのスカラー報酬が、学習効率とパーソナライズ品質を制限する、弱く、非指示的なフィードバックを提供する場合があると考えている。我々は、VACという新しい枠組みを提案する。これは、スカラー報酬をユーザープロファイルと質問のナラティブを条件として生成される自然言語フィードバック（NLF）で置き換え、パーソナライズされた応答生成を行う。NLFは、豊かで実行可能な教師信号として機能し、方策モデルが出力を反復的に洗練し、効果的なパーソナライズ戦略を内部化できるようにする。学習は、フィードバックモデルを最適化することと、改善された応答に対して方策モデルを微調整することを交互に行い、その結果、方策モデルは推論時にフィードバックを必要としなくなる。3つの多様な領域から成るLaMP-QAベンチマークでの評価では、最先端の結果に対して一貫した有意な改善が示された。人手評価でも、生成された応答の品質が優れていることがさらに確認された。これらの結果は、NLFがパーソナライズされた質問応答を最適化するための、より効果的な信号を提供することを示している。