より少なく詰めて、より多く収める:学習データのプルーニングは事実の記憶(memorization)を改善する

Apple Machine Learning Journal / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、学習データをプルーニングすることでモデルが特定の事実を記憶する能力を高められ、「より少ないデータ」であっても事実の保持がより良くなることを主張している。
  • 全体的な汎化だけでなく、学習データセットの一部を選択的に削除することが記憶挙動にどのように影響するかに焦点を当てている。
  • 本研究はICLRワークショップ論文として提示され、訓練データのキュレーションを、事実としての内容の制御可能な記憶(controllable memorization)に向けたレバーであることを裏づける証拠を提供する。
  • 著者らは、効率性とデータ選択を軸にアプローチを組み立て、モデルが内部に保存する情報に影響を与える実用的な方法を示唆している。
  • 本結果は、信頼できる事実想起を目的とする場合、あるいは無関係なデータの影響を最小化することを目的とする場合に、データセットをどのようにクリーニング/キュレーションすべきかに示唆を与える。

この論文は、ICLR 2026における「Foundation Models に関するデータ問題のナビゲートと対処(Workshop on Navigating and Addressing Data Problems for Foundation Models)」で採択されました。

大規模言語モデル(LLM)は、パラメータ内に事実知識を記憶することに苦労しがちで、その結果としてハルシネーションや、知識集約型タスクでの性能低下につながることがあります。本論文では、情報理論的な観点から「事実の記憶」を形式化し、学習データの分布が事実の正確性にどのように影響するかを研究します。本論文では、学習データ中の事実に含まれる情報量がモデルの…

この記事の続きは原文サイトでお読みいただけます。

原文を読む →