自然言語によるフィードバックから学ぶパーソナライズされた質問応答
arXiv cs.CL / 2026/4/27
💬 オピニオンModels & Research
要点
- 本論文は、質問応答におけるLLMのパーソナライズでは、RAGに続いてスカラー報酬による強化学習を行う手法が一般的だが、これらの報酬は弱く、パーソナライズを学ぶうえで有益な指示になりにくいと主張しています。
- その代わりとして、ユーザープロファイルと質問の物語(ナラティブ)に基づいて生成される自然言語フィードバック(NLF)を用いる、パーソナライズされた応答生成の枠組みVACを提案しています。
- 学習ではフィードバックモデルの最適化と、改善された応答に基づくポリシーモデルの微調整を交互に行い、その結果として推論時にはフィードバックを必要としないポリシーを得ます。
- LaMP-QAベンチマーク(3つの多様な領域)で、従来の最先端手法よりも一貫して大きな改善が見られ、ヒト評価でも生成応答の質が高いことが確認されています。
- 総じて本研究は、NLFがパーソナライズされたQAの最適化において、より豊かで実行可能な教師信号になることを示しています。




