言語モデルの抑制された対数尤度(log-probability)をポスト・トランスフォーマー・アダプタで補正する

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • アライメント調整された言語モデルは、政治的にセンシティブな話題に関して事実の対数尤度(log-probabilities)を抑制する一方で、知識は隠れ状態に残っていることがある。
  • 凍結した隠れ状態を用いて学習する、非常に小さなポスト・トランスフォーマー・アダプタ(786Kパラメータ、Qwen3基盤モデルの約0.02%)を提案し、31個のイデオロギー判別用ファクトで対数尤度の抑制を復元する。
  • アダプタは学習事実を全て記憶し、複数のランダム分割とモデル規模にわたり、保持データに対して11〜39%程度の一般化を示し、アンカー付き学習により知識の後退(リグレッション)は報告されない。
  • 出力のまとまり(coherence)は介入の適用位置に依存し、「最後の現在予測トークン位置だけ」に適用すると筋の通った、検閲度が低い文章が得られるが、「全トークン位置」への適用やlogit空間での介入は破綻した生成につながる。
  • 著者らは、これまで未報告だったApple MLXのサイレントな勾配バグを特定して修正し、これが先行試行でのnull結果の原因になっていたことを、最小再現と他のアダプタ研究向けの注意点とともに示す。

Abstract

アラインメント調整された言語モデルは、政治的にセンシティブな話題において、知識は隠れ表現の中に保持したままでありながら、事実に関する対数確率を頻繁に抑制する。そこで本研究では、786Kパラメータ(基盤モデルの約0.02%)のポストトランスフォーマー・アダプタを示す。このアダプタは凍結した隠れ状態を用いて学習され、Qwen3-4B、8B、14Bにおける31のイデオロギー識別的事実に対するこの抑制を補正する。アダプタは全15の学習事実を記憶し、各スケールにつき5つのランダム分割で保持された16の事実のうち11〜39%に一般化する。アンカー付き学習(anchored training)により、知識の退行(regression)はゼロである。ゲート付き(SwiGLU)および非ゲート付き(線形ボトルネック)のアダプタはいずれも同等の結果を達成する。いずれも他方を一貫して上回ることはない(全スケールでFisherの正確確率検定 p > 0.09)。指示(instruct)モデルにおいては、アダプタは対数確率の順位付けを補正する。生成時にアダプタをすべてのトークン位置に適用すると出力は支離滅裂になるが、現在の予測位置のみに適用(last-position-only)すると、首尾一貫した、より検閲が弱い文章が生成される。トークン投影後のログイット空間で動作するアダプタは、いずれの適用モードでも首尾一貫した生成を生み出せず、生成補正の正しい水準は隠れ状態への介入であることを示唆する。本研究のそれまでの反復で報告されたいずれの「null results(無効な結果)」も、Apple MLXに存在する、これまで未記載のサイレントな勾配(gradient)バグによってすべて説明できる。標準的なパターン nn.value_and_grad(model, fn)(model.parameters()) は、エラーなくゼロ勾配を返す。正しいパターンは nn.value_and_grad(model, fn)(model, data) であり、これにより解決する。我々は最小の再現(minimal reproduction)を提示し、MLXを用いた他のアダプタ研究への影響について議論する。