WildFeedback:会話中のユーザー相互作用とフィードバックに基づいてLLMをアラインする

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • WildFeedbackは、コストのかかる注釈付きデータセットだけに頼らず、実際のユーザー会話の中で得られるフィードバック(in-situフィードバック)を使ってLLMを人間の嗜好に合わせるための新しい枠組みです。
  • マルチターンのユーザー–LLM対話コーパスを前提に、会話のターン間でのモデル応答に対するユーザーのフィードバックを自動的に検出・分類し、その結果を「好まれる/好まれない」応答例として嗜好データに変換します。
  • 実験では、WildFeedbackデータセットで微調整したLLMが、従来のベンチマークに加えて提案するチェックリストに基づく評価でも、ユーザー嗜好との整合性を大きく改善することが示されています。
  • この手法は、従来のアラインメント手法で問題になりがちなスケーラビリティ、主観性、そしてバイアスが増幅されるフィードバックループの課題を軽減することを狙っています。
  • 全体としてWildFeedbackは、ユーザーの多様で変化するニーズによりよく応答できるLLMを目指し、対話から得られる信号を活用します。