要旨: 複数ターンのユーザー対話は言語モデルが生成するデータの中でも最も豊富なものの1つだが、それらから学ぶ効果的な方法はまだ不足している。通常は破棄されることが多いが、これらの対話にはしばしば有用な情報が含まれている。追加のユーザーメッセージは、応答が誤っていた、指示に従わなかった、またはユーザーの好みに合わなかったことを示すことがある。重要なのは、言語モデルはすでに文脈内でこの情報を活用する能力を持っていることだ。ユーザーのフォローアップを観察した後、同じモデルはしばしば自分の挙動を修正できる。私たちはこの能力を活用して、自己蒸留を通じてユーザーとの対話から直接学ぶための、原理的で拡張性のある方法を提案します。モデルをユーザーのフォローアップ・メッセージで条件付けし、得られたトークン分布を元の方針と比較することで、後知恵としてモデルの挙動がどのように変化したかを捉えた方針更新のターゲットを得ます。次に、この後知恵に基づく分布を現在の方針へ再蒸留します。驚くべきことに、WildChat の実世界のユーザー対話での学習は、標準的な整合性および指示遵守のベンチマークにおいて言語モデルの性能を改善し、他の能力を低下させることはない。同じ仕組みはパーソナライズにも寄与し、明示的なフィードバックなしに相互作用を通じて個々のユーザーに継続的に適応できるようモデルを可能にします。私たちの結果は、デプロイメント中に自然に生じる生のユーザー対話が、整合性、パーソナライズ、および継続的適応を可能にすることを示しています。
ユーザーの対話を通じた言語モデルの整合化
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、フォローアップメッセージを条件として学習し、フォローアップから得た過去の判断の変化を現在の方針に蒸留して整合性を向上させる自己蒸留アプローチを提案する。
- 実世界の WildChat の対話を活用し、他の能力を後退させることなく、標準的な整合性および指示遵守のベンチマークにおいて改善を示す。
- この手法はパーソナライゼーションを可能にし、明示的なフィードバックなしに対話を通じて言語モデルが個々のユーザーに継続的に適応できるようにする。
- 結果は、デプロイ時の生のユーザー対話が、言語モデルの整合性・パーソナライゼーション・継続的適応を推進し得ることを示している。