混乱の中の CLaRE-ty: 表現的エンタングルメントの定量化による LLM 編集における波及効果の予測

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • CLaRE は、単一の中間層の前方活性化を用いて事実間のエンタングルメントを定量化することで、LLM の編集による波及効果が発生する可能性のある箇所を特定する、軽量な表現レベルの手法を導入します。これにより高コストな逆伝搬を回避します。
  • この手法は、11,427 の事実のコーパスを分析し、エンタングルメントグラフを構築して、局所的な編集がモデルの表現を通じてどのように伝播するかを示します。
  • ベースラインと比較して、CLaRE はリップル効果とのスピアマン相関を平均で 62.2% 改善し、2.74 倍の高速化を実現し、ピーク時の GPU メモリを 2.85 倍削減します。
  • このアプローチは、モデル編集のより強力な保持セット、監査証跡、スケーラブルなレッドチーミング、および編集後の評価を可能にし、更新の信頼性を向上させます。
  • 著者らはエンタングルメントグラフとコーパスを提供しており、データセットへのリンクを掲載しています。

要旨:大規模言語モデル(LLMs)の静的な知識表現は、時とともに必然的に時代遅れになったり不正確になることがあります。モデル編集技術は、モデルの事実関係を修正することで有望な解決策を提供しますが、しばしば予測不能な波及効果を生み出し、それらは隠れ層にも伝播する予期せぬ挙動変化となります。本研究では、これらの波及効果がどこで生じる可能性があるかを特定する、軽量な表現レベルの手法であるCLaREを提案します。従来の勾配ベースの手法とは異なり、CLaREは単一の中間層の前向き活性化を用いて事実間の絡み合いを定量化し、コストの高い逆伝搬を回避します。体系的な研究を可能にするため、3つの既存データセットから抽出した11,427の事実からなるコーパスを作成・分析します。CLaREを用いて、このコーパスの大規模な絡み合いグラフを複数のモデルについて計算し、局所的な編集が表現空間をどのように伝播するかを捉えます。これらのグラフは、モデル編集のためのより強力な保持対象、監査証跡、効率的なレッドチーミング、およびスケーラブルなポスト編集評価を実現します。基準手法と比較して、CLaREは波及効果を伴うSpearman相関係数を平均で62.2%改善し、約2.74倍速く、ピークGPUメモリを約2.85倍削減します。さらに、CLaREは事実表現を計算・保持するのに、ベースラインが必要とするストレージのほんの一部しか必要としません。私たちの絡み合いグラフとコーパスは以下で公開されています:https://anonymous.4open.science/r/CLaRE-488E。)