WildFeedback:会話中のユーザー相互作用とフィードバックに基づいてLLMをアラインする
arXiv cs.CL / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- WildFeedbackは、コストのかかる注釈付きデータセットだけに頼らず、実際のユーザー会話の中で得られるフィードバック(in-situフィードバック)を使ってLLMを人間の嗜好に合わせるための新しい枠組みです。
- マルチターンのユーザー–LLM対話コーパスを前提に、会話のターン間でのモデル応答に対するユーザーのフィードバックを自動的に検出・分類し、その結果を「好まれる/好まれない」応答例として嗜好データに変換します。
- 実験では、WildFeedbackデータセットで微調整したLLMが、従来のベンチマークに加えて提案するチェックリストに基づく評価でも、ユーザー嗜好との整合性を大きく改善することが示されています。
- この手法は、従来のアラインメント手法で問題になりがちなスケーラビリティ、主観性、そしてバイアスが増幅されるフィードバックループの課題を軽減することを狙っています。
- 全体としてWildFeedbackは、ユーザーの多様で変化するニーズによりよく応答できるLLMを目指し、対話から得られる信号を活用します。



