幻覚(ハルシネーション)を軽減する方法[P]

Reddit r/MachineLearning / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この投稿では、外部ジャッジや追加の人手ラベル、重い嗜好学習パイプラインに頼らずに、LLMの幻覚を軽減する軽量な手法が述べられています。
  • 凍結したベースモデルにより「悪い」反事実(カウンターファクト)の回答を生成し、分岐が初めて起きる地点以降だけで、正しい回答を悪い分岐に対して対比学習する形で適応モデルを訓練します。
  • モデルが悪い継続に対してまだ強く支持してしまっているケースに限定して更新するため、学習例の約10%でのみパラメータ更新が発生します。
  • 実験では、標準のCE学習やDPO系ベースラインよりも事実性(factuality)が向上し、分布外(OOD)設定でも改善が一貫しているとされます。
  • DPOに対して約6%ポイント、SFTに対して約1%ポイントの差が報告されており、また約10%のデータだけで成果が得られたことから、単にデータ量が多いことが必ずしも性能につながらない可能性が示唆されています。

こんにちは、皆さん。前回の投稿が削除されたので再投稿します(なぜか分かりませんが、文章の品質が低いからでしょうか?)

外部の判定者、追加の人手ラベル、あるいは重い嗜好学習パイプラインに頼らずに、LLMの幻覚を軽減する軽量な方法に取り組んできました。

基本的なアイデアはシンプルです。固定されたベースモデルに「悪い」反事実の回答を生成させ、その後、両者が分岐してから最初の時点以降に限って、正しい回答とその悪い分岐のみを対比するように適応モデルを学習させます。

すべてのサンプルで更新する代わりに、その悪い継続がまだモデルから過剰に支持されているケースを自己選択します。

実際には、学習例のうち本当に更新を引き起こすのは約10%程度ですが、それでもモデルは標準的なCE学習やDPOスタイルのベースラインに比べて事実性が改善します。

さらに、分布外(OOD)の設定でもテストしましたが、学習ベンチマークに当てはめているだけではなく、得られる改善は一貫していました。

OODデータセットで良好な性能を示しました。

DPOと比較すると、約6%pの低下(改善しない場合は差分)でした。
SFTと比較すると、約1%pの低下(改善しない場合は差分)でした。

両方の結果は、データセットの約10%しか使っていません。一方でDPOやSFTはデータセット全体を使用しました。

これは2つのことを意味していると思います:
1) サンプル単位の適合は、モデルがデータセット全体に対して一般化するのに役立つ。
2) 多くのデータセット=常に良い性能につながるとは限らない。

githubリンク:genji970/hallucination-mitigation-via-contrastive-sampling-method: Selective contrastive post-training for hallucination mitigation in LLMs — improves factuality with ~10% data.

submitted by /u/Round_Apple2573
[リンク] [コメント]