この論文は、ICLR 2026における「Foundation Models に関するデータ問題のナビゲートと対処(Workshop on Navigating and Addressing Data Problems for Foundation Models)」で採択されました。
大規模言語モデル(LLM)は、パラメータ内に事実知識を記憶することに苦労しがちで、その結果としてハルシネーションや、知識集約型タスクでの性能低下につながることがあります。本論文では、情報理論的な観点から「事実の記憶」を形式化し、学習データの分布が事実の正確性にどのように影響するかを研究します。本論文では、学習データ中の事実に含まれる情報量がモデルの…



