Activation Steeringにおけるコラテラルダメージの最小化

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Activation steeringは、LLM内部の表現を介入して特定の特徴方向への整合性を高めることで、モデル挙動を制御する手法である。
  • 一方で、ベクトル加算などの一般的な介入では、非ターゲットの特徴方向に対する整合性まで意図せず変化してしまう「コラテラルダメージ」が起き得る。
  • 著者らは、このコラテラルダメージが「非ターゲット特徴は等方的」という暗黙の仮定に基づく標準手法から生じることを数学的に明確化する。
  • さらに、コラテラルダメージを数理的に形式化し、steeringを制約付き最適化問題として定式化して、副作用を体系的に抑える枠組みを提示する。
  • 提案手法は、活性の実測セカンドモーメント行列に基づく重み付けでコラテラル変化の期待二乗を最小化するため、方向ごとの非一様なコストを反映でき、関連しないタスクでの性能劣化を抑えつつ制御精度を高めることを狙う。