LoRAアダプタのスペクトル幾何は学習目的を符号化し、有害なコンプライアンスを予測する

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ローラ（LoRA）アダプタの重み差分を層ごとのスペクトル特徴（安定ランク、特異値エントロピー、実効ランク、健全セントロイドとのベクトル整合など）で要約すると、微調整の学習目的（例：DPOの反転設定など）を高精度に識別できることが示された。
Llama-3.2-3B-Instruct 上の事前登録実験で、同一手法（DPO内）では目的の二値/多クラス識別や序数の重み付け順位付けがほぼ完全（AUC~1.00、ρ≥0.956）に達し、学習時間とは独立な主成分（PC1）が目的情報を表す結果となった。
ただし手法をまたいだ汎化は失敗し、たとえばDPO学習器は他手法由来のステアリング系アダプタを正しくドリフトとして検出できなかった（AUC~0.00）。
行動評価では、DPO-inverted-harmlessness が HEx-PHI プロンプトに対する有害コンプライアンス（ASR 0.266 vs. 健全 0.112）を有意に上昇させ、強度の用量-反応関係も高い相関（ρ=0.986）で観測された。
スペクトル幾何（geometry）と有害コンプライアンスの順位相関も一定程度成立するが（ρ=0.72）、クロス手法監視には手法別のキャリブレーションが必要だと結論づけている。