AI Navigate

SCAN: 生涯知識編集のための疎回路アンカー解釈可能ニューロン

arXiv cs.AI / 2026/3/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SCANは、疎回路アンカーされたニューロンを用いることで、LLMsの生涯知識編集における破局的忘却に対処するための疎編集フレームワークを導入します。
  • この手法は、Sparse Transcodersを介した機構認識的な操作を用いて知識回路を構築し、粗い・密なパラメータ介入を超えたアプローチへと移行します。
  • Gemma2、Qwen3、Llama3.1を対象としたCounterFact、ZsRE、WikiFactDiffの実験は、SCANが優れた性能を発揮し、3,000回の連続編集後もモデルの整合性を維持することを示しており、競合手法とは異なる結果となっています。
  • 結果は、SCANが継続的な編集中のモデル崩壊を緩和し、編集を行いながらMMLUやGSM8Kなどのベンチマークで精度を維持することを示しています。

要旨:大規模言語モデル(LLMs)は、連続的な知識編集の過程で壊滅的な忘却と崩壊を経験することが多い。この脆弱性は、支配的な密編集パラダイムに起因し、モデルをブラックボックスとして扱い、粗粒度のパラメータ介入に依存することにより、保存された知識を不可避に乱してしまう。これに対処するため、Sparse Circuit Anchored Neuron に基づくスパース編集フレームワークである SCAN を提案する。SCAN は Sparse Transcoders を用いて知識回路を構築することにより、編集を機構認識型の操作へと変換する。Gemma2、Qwen3、Llama3.1 に対する CounterFact、ZsRE、WikiFactDiff における実験は、SCAN が優れた性能を発揮し、3,000 回の連続編集を経ても MMLU や GSM8K のようなベンチマークでモデルの整合性を維持することを示しており、他の既存手法は編集が蓄積されるにつれて徐々に劣化し、最終的にはモデル崩壊に至る。