言語モデルは、活性化に適用されたドロップアウトとガウスノイズを認識できる

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この研究では、活性化(アクティベーション)に加えられた摂動(パートビュレーション)の違いを、言語モデルが検出・位置特定し、ある程度は言語化することができるという証拠を示す。
  • 実験では、活性化をマスクして(ドロップアウトに相当)模擬する、または特定の文にガウスノイズを加えることで摂動を作り、モデルは「どの先行文が摂動されたか」や「2つの摂動のうちどちらが適用されたか」といった多肢選択で判定する。
  • Llama・Olmo・Qwenファミリー(8B〜32B)のモデルはいずれも、摂動の検出・位置特定をしばしば完全精度で達成し、文脈内の教示によってドロップアウトとガウスノイズを区別することもできる。
  • QwenBでは、摂動強度が増すほどゼロショットの判別精度が向上し、さらに文脈内ラベルを反転すると低下することから、正しいラベルに整合する内部の事前分布(優先傾向)が示唆される。
  • 研究者らは、ドロップアウトが学習時の正則化として使われる一方でガウスノイズは推論時に加えられることがある点に関連づけつつ、データ非依存の「学習への気づき(training awareness)」信号の可能性と、AI安全性への含意を議論している。