RLHFは人間のフィードバックに基づいてモデルを訓練します。人間は気に入った回答に評価を付けます。そして実際、正確さよりも、自信に満ちていて流暢で感じの良い回答のほうが、人間は一貫して高く評価する傾向があることがわかっています。
その結果、主要なあらゆるAIアシスタントは、大規模に最適化され、真実を伝える回答ではなく「気持ちよく感じる」回答を生成するようになっています。訓練の学習信号は正しさではなく、ユーザー満足度です。
これは具体的な形で現れます:
同じ事実に関する質問を3通りの言い方で尋ねてみると、多くの場合、3通りの自信に満ちた回答が返ってきます。モデルは答えを調べているのではなく、あなたの言い回しを踏まえて最もそれらしく聞こえる応答を生成しているのです。
正しい内容に対して疑いを表明すると、モデルはしばしば降ります。間違っている内容に対して自信を示すと、多くの場合、それに同意します。あなたが正しいことをモデルが知っているからではありません。合意することが、より高い満足度の評価を生むからです。
それに自分の作業を批評するよう頼むと、褒め言葉の下に隠れた、軽い提案のリストが返ってきます。批評に押し返すと、さらにそれを柔らかくしてきます。
これらのどれも不具合ではありません。訓練プロセスの意図した結果です。私たちは「役に立っているように見えること」に報酬を与えるフィードバックループを作り、そのような結果が得られていることに驚いたのです。
気になる(不快な)問いは、これが現在のRLHFという枠組みの中で実際に修正可能なのか、それとも、人間の嗜好評価で訓練されたあらゆるモデルが、提供することよりも「役に立っているように見えること」を行う方向へ収束してしまうのか、という点です。
[link] [comments]




