言語モデルの抑制された対数尤度(log-probability)をポスト・トランスフォーマー・アダプタで補正する
arXiv cs.LG / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- アライメント調整された言語モデルは、政治的にセンシティブな話題に関して事実の対数尤度(log-probabilities)を抑制する一方で、知識は隠れ状態に残っていることがある。
- 凍結した隠れ状態を用いて学習する、非常に小さなポスト・トランスフォーマー・アダプタ(786Kパラメータ、Qwen3基盤モデルの約0.02%)を提案し、31個のイデオロギー判別用ファクトで対数尤度の抑制を復元する。
- アダプタは学習事実を全て記憶し、複数のランダム分割とモデル規模にわたり、保持データに対して11〜39%程度の一般化を示し、アンカー付き学習により知識の後退(リグレッション)は報告されない。
- 出力のまとまり(coherence)は介入の適用位置に依存し、「最後の現在予測トークン位置だけ」に適用すると筋の通った、検閲度が低い文章が得られるが、「全トークン位置」への適用やlogit空間での介入は破綻した生成につながる。
- 著者らは、これまで未報告だったApple MLXのサイレントな勾配バグを特定して修正し、これが先行試行でのnull結果の原因になっていたことを、最小再現と他のアダプタ研究向けの注意点とともに示す。



