こんにちは、皆さん。前回の投稿が削除されたので再投稿します(なぜか分かりませんが、文章の品質が低いからでしょうか?)
外部の判定者、追加の人手ラベル、あるいは重い嗜好学習パイプラインに頼らずに、LLMの幻覚を軽減する軽量な方法に取り組んできました。
基本的なアイデアはシンプルです。固定されたベースモデルに「悪い」反事実の回答を生成させ、その後、両者が分岐してから最初の時点以降に限って、正しい回答とその悪い分岐のみを対比するように適応モデルを学習させます。
すべてのサンプルで更新する代わりに、その悪い継続がまだモデルから過剰に支持されているケースを自己選択します。
実際には、学習例のうち本当に更新を引き起こすのは約10%程度ですが、それでもモデルは標準的なCE学習やDPOスタイルのベースラインに比べて事実性が改善します。
さらに、分布外(OOD)の設定でもテストしましたが、学習ベンチマークに当てはめているだけではなく、得られる改善は一貫していました。
OODデータセットで良好な性能を示しました。
DPOと比較すると、約6%pの低下(改善しない場合は差分)でした。
SFTと比較すると、約1%pの低下(改善しない場合は差分)でした。
両方の結果は、データセットの約10%しか使っていません。一方でDPOやSFTはデータセット全体を使用しました。
これは2つのことを意味していると思います:
1) サンプル単位の適合は、モデルがデータセット全体に対して一般化するのに役立つ。
2) 多くのデータセット=常に良い性能につながるとは限らない。
githubリンク:genji970/hallucination-mitigation-via-contrastive-sampling-method: Selective contrastive post-training for hallucination mitigation in LLMs — improves factuality with ~10% data.
[リンク] [コメント]




