プローブ幾何アライメント：チャンス以下に交差系列の記憶化シグネチャを消去する

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「行動のアンラーニング」によって大規模言語モデル内部に残る記憶化痕跡が、敵対的プローブで回収可能であることを整理し、その保持がどの層に存在するのかを特定します。
交差系列で記憶化シグネチャが一般化するかを評価するため、leave-one-out（1系列を除外する）クロスシーケンス・プローブを提案し、Pythia-70M、GPT-2 medium、Mistral-7Bで一貫したシグネチャ差を報告します。
プローブの方向性を射影で取り除くと記憶化シグネチャが大きく崩れる一方で、行動上のリコールはほとんど変わらないことを示し、これが表現的に別のレジームであることを示唆します。
「probe-geometry alignment（PGA）」と呼ばれる、活性をプローブのライブ・リードアウト方向に各層で整列させる外科的消去法を導入し、複数スケールで交差系列シグネチャをランダム以下に抑えるとともに、複数のプローブ変種にも頑健であることを示します。
PGAは消去を実現しつつ性能劣化が観測されないことを報告しており、5つのゼロショット・ベンチマークを平均でタスクあたり最大2.8ポイント以内の範囲に維持します。