メモリーダイヤル:言語モデルにおける制御可能な記憶(memorization)のための学習フレームワーク

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、「Memory Dial」という学習フレームワークを提案し、純粋に事後的な測定にとどまっていた記憶圧力(memorization pressure)を、明示的で制御可能な学習パラメータとして扱えるようにする。
  • Memory Dialは、単一のパラメータαによって標準の交差エントロピーと、温度で鋭さ(temperature-sharpened)を加えた目的関数の間を補間し、モデルの構造と学習条件を同一に保ったまま、記憶圧力のみを系統的に掃引(sweep)できるようにする。
  • 6つのアーキテクチャと5つのベンチマークにわたる実験により、αが増加するにつれて見たことのある例(seen-example)に対する精度が単調に上がる一方で、見ていない例(unseen)に対する精度は概ね安定しており、過学習の崩壊(straightforward overfitting collapse)を伴わない制御可能な記憶が示される。
  • 本研究では、大規模なモデルほど記憶圧力への反応がより強いこと、また頻出する系列の方が一般に記憶しやすいことを見出す。
  • 追加分析により、鋭さ付け(sharpening)の温度に対する頑健性、単一温度の交差エントロピーとの質的な違い、多言語転移、自然に生じる単発(single-occurrence)系列であっても記憶が検出可能であることが示される。

要旨: 言語モデルにおける記憶化は広く研究されているものの、単離して制御することは依然として困難です。いつ、何をモデルが記憶化するのかを理解することは、それらの予測を説明するうえで不可欠ですが、既存の手法は事後的(post-hoc)です。つまり、訓練済みモデルにおける記憶化を検出することはできますが、その効果をアーキテクチャ、データ、最適化から切り離すことはできません。私たちは、記憶化の圧力を明示的で制御可能な変数にする訓練フレームワークである Memory Dial を提案します。Memory Dial は、単一のパラメータ \alpha を介して、標準の交差エントロピーと、温度でシャープ化した目的関数との間を補間し、その結果として、(各スイープ内では)アーキテクチャと訓練設定が同一で、異なるのは記憶化の圧力のみである、一連のモデル族を生成します。6つのアーキテクチャと5つのベンチマークにわたる実験により、次が示されます: (1) \alpha は記憶化の圧力を確実に制御でき、見たことのある例の精度は単調に増加する一方で、見ない例の精度は安定しています; (2) より大きなモデルほど、記憶化の圧力に対してより敏感です; (3) 頻出の系列は、稀な系列よりも記憶化しやすいです。追加分析により、この効果はシャープ化温度の幅広い範囲で頑健であり、単一温度の交差エントロピーとは質的に異なり、多言語設定にも移転し、自然に生じる「単一出現」系列でも検出可能であることが示されます。Memory Dial は、言語モデルにおける記憶化行動がどのように生まれ、一般化とどのように相互作用するかを研究するための、制御された実験的枠組みを提供します。