言語モデルの抑制された対数尤度（log-probability）をポスト・トランスフォーマー・アダプタで補正する

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

アライメント調整された言語モデルは、政治的にセンシティブな話題に関して事実の対数尤度（log-probabilities）を抑制する一方で、知識は隠れ状態に残っていることがある。
凍結した隠れ状態を用いて学習する、非常に小さなポスト・トランスフォーマー・アダプタ（786Kパラメータ、Qwen3基盤モデルの約0.02%）を提案し、31個のイデオロギー判別用ファクトで対数尤度の抑制を復元する。
アダプタは学習事実を全て記憶し、複数のランダム分割とモデル規模にわたり、保持データに対して11〜39%程度の一般化を示し、アンカー付き学習により知識の後退（リグレッション）は報告されない。
出力のまとまり（coherence）は介入の適用位置に依存し、「最後の現在予測トークン位置だけ」に適用すると筋の通った、検閲度が低い文章が得られるが、「全トークン位置」への適用やlogit空間での介入は破綻した生成につながる。
著者らは、これまで未報告だったApple MLXのサイレントな勾配バグを特定して修正し、これが先行試行でのnull結果の原因になっていたことを、最小再現と他のアダプタ研究向けの注意点とともに示す。

Abstract

アラインメント調整された言語モデルは、政治的にセンシティブな話題において、知識は隠れ表現の中に保持したままでありながら、事実に関する対数確率を頻繁に抑制する。そこで本研究では、786Kパラメータ（基盤モデルの約0.02%）のポストトランスフォーマー・アダプタを示す。このアダプタは凍結した隠れ状態を用いて学習され、Qwen3-4B、8B、14Bにおける31のイデオロギー識別的事実に対するこの抑制を補正する。アダプタは全15の学習事実を記憶し、各スケールにつき5つのランダム分割で保持された16の事実のうち11〜39%に一般化する。アンカー付き学習（anchored training）により、知識の退行（regression）はゼロである。ゲート付き（SwiGLU）および非ゲート付き（線形ボトルネック）のアダプタはいずれも同等の結果を達成する。いずれも他方を一貫して上回ることはない（全スケールでFisherの正確確率検定 p > 0.09）。指示（instruct）モデルにおいては、アダプタは対数確率の順位付けを補正する。生成時にアダプタをすべてのトークン位置に適用すると出力は支離滅裂になるが、現在の予測位置のみに適用（last-position-only）すると、首尾一貫した、より検閲が弱い文章が生成される。トークン投影後のログイット空間で動作するアダプタは、いずれの適用モードでも首尾一貫した生成を生み出せず、生成補正の正しい水準は隠れ状態への介入であることを示唆する。本研究のそれまでの反復で報告されたいずれの「null results（無効な結果）」も、Apple MLXに存在する、これまで未記載のサイレントな勾配（gradient）バグによってすべて説明できる。標準的なパターン nn.value_and_grad(model, fn)(model.parameters()) は、エラーなくゼロ勾配を返す。正しいパターンは nn.value_and_grad(model, fn)(model, data) であり、これにより解決する。我々は最小の再現（minimal reproduction）を提示し、MLXを用いた他のアダプタ研究への影響について議論する。