要旨: 大規模言語モデル(LLM)は多様なユーザーの質問に対して強力な能力を示す一方で、幻覚(hallucinations)に悩まされることがあります。この幻覚は、事前学習と微調整の間における知識の不整合(knowledge misalignment)から生じることが多いです。こうした不整合に対処するために、マルチサンプル推論によってきわめて細かな、インスタンス単位の知識スコアを確実に推定します。知識スコアを用いて、モデルがすでに持っている知識に応じて学習シグナルをスケーリングしつつ、範囲外の質問に対しては明示的な「わかりません(I don't know)」の応答を促します。実験結果は、このアプローチにより、知識が不足している場合にモデルが不確実性を明示的に表現できる一方で、答えられる質問に対しては精度を維持できることを示しています。さらに、不確実性のための評価指標を提案し、既知と未知のインスタンスを正確に識別することが一貫して性能を向上させることを示します。
モデルが知っていること、どれだけ知っているか:知識に重み付けしたファインチューニングによる「わかりません」と言うべきタイミングの学習
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、モデルのインスタンスレベルの知識に学習を整合させ、事前学習とファインチューニングの間で生じる知識の不整合を補正することで、幻覚を低減するための知識に重み付けしたファインチューニングを提案する。
- マルチサンプル推論によって細粒度の知識スコアを推定し、各学習例についてモデルがどれだけそれを既に知っているかに応じて学習信号をスケーリングする。
- 本手法は、範囲外または未知の問い合わせに対して「わかりません」と応答するようにモデルを明示的に学習させ、回答可能な質問に対する精度を犠牲にすることなく、不確実性の校正を改善する。
- 著者らは、不確実性に関する評価指標を導入し、「既知」と「未知」のインスタンスをより良く識別できるほど、より一貫した性能改善につながることを示す。