CausalDetox：言語モデルのデトックス化のための因果ヘッド選択と介入

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、大規模言語モデルが生成する有害出力に因果的に関与している注意ヘッドを特定する枠組み「CAUSALDETOX」を提案しています。
Probability of Necessity and Sufficiency（PNS）を用いて、有害性に対して「必要かつ十分」な最小のヘッド集合を抽出します。
CAUSALDETOXは、特定したヘッドを2つの方法で活用します。入力に応じた推論時のステアリング（Local Inference-Time Intervention）と、PNSに基づく微調整による恒久的な非学習（unlearning）です。
有害/無害の対を揃えた反事実評価用ベンチマーク「PARATOX」も新たに導入されています。
複数のベンチマークで、言語流暢性を維持しつつベースラインより最大5.34%の有害性低減と、ヘッド選択の7倍高速化が報告されています。

要旨: 大規模言語モデル（LLM）は頻繁に有害な内容を生成し、安全に展開する上で重大なリスクとなります。現在の対策手法は、しばしば生成品質を低下させるか、高価な人手による注釈を必要とします。我々は、有害な生成の原因となっている特定の注意ヘッドを因果的に特定し、介入する枠組みであるCAUSALDETOXを提案します。確率的必要十分性（PNS）を用いて、有害性に対して必要かつ十分な最小限のヘッド集合を切り出します。これらの構成要素を、2つの補完的な戦略によって活用します: （1）ローカル推論時介入（Local Inference-Time Intervention）。これは、文脈に応じた解毒のための入力依存の動的なステアリングベクトルを構築します。および（2）PNSに導かれた微調整（PNS-Guided Fine-Tuning）。これは、有害な表現を恒久的に“忘れさせる”ことで抑制します。さらに、整合した有害／非有害文の新しいベンチマークであるPARATOXを導入し、制御された反事実的評価を可能にします。ToxiGen、ImplicitHate、ParaDetoxに対する実験の結果、CAUSALDETOXはベースラインと比べて最大5.34%の有害性低減を達成しつつ、言語的流暢さを維持することが示されました。また、ヘッド選択において7倍の高速化を提供します。