概要: 大規模言語モデル(LLMs)が有用で安全な状態を保つことは、重大な課題です:繰り返しの安全データセットでのファインチューニングは、危険なプロンプトが標準的な拒否テンプレートと組み合わされる場合、善意のクエリが拒否される誤拒否を引き起こすことが多いです。私たちはこの効果を定量化し、安全データは一般の指示データと比較してトークンエントロピーおよび2-グラムの多様性が著しく低い(0.048)ことを示します。根本原因を明らかにするために、FlowLensを導入します。これは残差ストリームの幾何学解析の安定したPCAベースのツールであり、安全例の割合が高いほど、分散がいくつかの成分に集中し、表現の滑らかさを低下させ、偽拒否を生じさせることを明らかにします(安全データが0%から40%へ増加すると偽拒否率は63%から84%へ上昇します)。これらの洞察に導かれ、Variance Concentration Loss(VCL)を提案します。これは中間層の残差における過度な分散集中を罰する補助的正則化項です。実証的な結果は、VCLが偽拒否を35パーセントポイント超減少させ、MMLUやGSM8Kなどの一般的なベンチマークでの性能を維持または向上させることを示しています。
過学習と構造的撹乱の残差ストリーム分析
arXiv cs.LG / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、標準的な拒否テンプレートを用いた安全性重視のファインチューニングが、善意のプロンプトに対する誤拒否率を高めることを示しており、安全データが0%から40%へと増えるにつれて63%から84%へと上昇する。
- 安全データは、一般的な指示データと比較して、トークンエントロピーと2-グラム多様性(0.048)が顕著に低いことを示す。
- FlowLensを導入する。これは残差ストリームの幾何学的解析のための安定したPCAベースのツールであり、安全データが少数の成分に沿って分散を集中させ、表現の滑らかさを低下させることを明らかにする。
- Variance Concentration Loss(VCL)を提案する。中間層の残差における過度の分散集中を罰する正則化項であり、偽拒否を35パーセントポイント以上減らす一方で、MMLUやGSM8Kなどのベンチマークでの性能を維持または向上させる。