要旨: 大規模言語モデルは、事実として誤った内容を幻覚として生成しがちです。これらの誤りの主要な要因の1つは、教師あり微調整(SFT)を通じて新しい事実情報に触れることです。これにより、事前学習中に獲得した知識に関して幻覚が増加し得ます。本研究では、SFTによって引き起こされる幻覚が、継続学習(continual learning)文献における確立された手法で軽減できるかどうかを検討します。これらの幻覚は、学習中の知識劣化(knowledge degradation)の副産物として生じるためです。私たちは、出力分布のドリフトを正則化することで、事前に存在する知識に関する幻覚を最小限に抑えつつ、効果的な事実学習を促進する自己蒸留(self-distillation)ベースのSFT手法を提案します。また、新しい知識の獲得が不要な状況では、パラメータ・グループを凍結することで事実の可塑性(factual plasticity)を抑制すれば、幻覚を減らしながらタスク性能を維持できることも示します。最後に、SFTによって引き起こされる幻覚のメカニズムを、能力の制約(capacity limitations)、行動クローン化(behavior cloning)、局所的な干渉(localized interference)の3つの仮説を通して調査します。実験の結果、主な駆動要因は、重なり合う意味表現間の干渉であり、そして自己蒸留はこの干渉を緩和することで成功することを示します。
ファインチューニングがハルシネーションを促す理由とその対処法
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルのハルシネーションが、教師ありファインチューニング(SFT)後に増えることがあるのは、新しい事実を学ぶ過程で事前学習で得た知識が劣化または変化しうるためだと主張している。
- 継続学習(continual learning)の既存手法に基づく対策として、出力分布のドリフトを正則化することで前知識に関するハルシネーションを抑える自己蒸留ベースのSFT手法を提案している。
- 新しい知識の獲得が不要な状況では、「事実の可塑性(factual plasticity)」を抑えるために選択したパラメータ群を凍結することで、タスク性能を維持しつつハルシネーションを減らせることを示している。
- SFTによるハルシネーションの理由を解明するために、能力限界、振る舞いの模倣(behavior cloning)の影響、局所的な干渉といった複数の仮説を検証し、主な要因は重なり合う意味表現間の干渉だと結論づけている。
- 実験結果では、自己蒸留が主にこの干渉を緩和することで、事実学習をより効果的にしつつ前知識の劣化を抑えられることが示されている。



