要旨: 言語モデルは、害のあるプロンプトを拒否するよう安全性の整合性のために一般的にファインチューニングされます。1つのアプローチでは、応答する前に異なる拒否タイプを区別するカテゴリ拒否トークンを生成するようファインチューニングします。本研究では、これらのカテゴリ拒否トークンでファインチューニングされた Llama 3 8B のバージョンを活用し、推論時に細かな拒否挙動を制御できるようにして、安全性と信頼性の向上を図ります。拒否トークンのファインチューニングは、残差ストリームに分離可能でカテゴリに整合した方向を誘導することを示しており、それを抽出して、推論時に拒否へ向かうか拒否から離れるかを決定する軽量プローブを用いてカテゴリ別のステアリングベクトルを構築します。さらに、これらのカテゴリ方向を、ホワイトニングされた正規直交のステアリング基底において混合する学習済みの低ランク結合を導入し、活性化空間の異方性の下で単一の制御可能な介入を生み出し、この介入が追加の訓練なしに同一アーキテクチャのモデルバリアント間で転送可能であることを示します。ベンチマーク全体で、カテゴリ別ステアリングベクトルと低ランク結合の両方は、無害なプロンプトに対する過剰拒否を一貫して低減し、害のあるプロンプトに対する拒否率を上げることで、多カテゴリ拒否制御における有用性を浮き彫りにしています。
拒否トークンから拒否制御へ: カテゴリ別拒否方向の発見と誘導
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論時に Llama 3 8B の拒否挙動を制御・誘導するカテゴリ別拒否トークンを導入し、複数カテゴリの拒否を実現する。
- これらのトークンを用いたファインチューニングが、モデルの残差ストリームに分離可能でカテゴリ整列した方向を生み出し、それをステアリングベクトルとして抽出できることを示す。
- また、ホワイトニングされた直交ステアリング基底内でカテゴリ方向を組み合わせる学習済みの低ランク結合を提案し、活性化空間の異方性に頑健な単一介入を提供するとともに、追加の訓練なしで同一アーキテクチャのバリアント間で転用可能である。
- ベンチマーク全体で、本手法は無害なプロンプトに対する過度の拒否を減らし、有害なプロンプトに対する拒否を増やすことで、実用的な安全性の利点を強調する。
