持続的な勾配アラインメントがマルチステップ設定でのサブリミナル学習を仲介する:MNIST 補助ロジット蒸留実験からの証拠

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、MNISTの補助ロジット蒸留において、no-classロジットのみで蒸留していても「サブリミナル学習」により学生が意図しない教師の特性を獲得し得ることを報告している。
  • これまでの単一ステップの勾配降下に基づく理論では、意図しない特性の方向と蒸留勾配の間のアラインメントが原因だとされていたが、それがマルチステップ最適化でも維持されるかは不明だった。
  • 著者らは、マルチステップ学習中に勾配アラインメントが弱いながらも一貫して正であり、そのことが特性獲得に因果的に寄与することを実験的に示した。
  • 「liminal training」という緩和手法はアラインメントを弱めるものの、このセットアップでは特性獲得を止められないことが示されている。
  • これらの結果は、最初階の(支配的な)勾配駆動が優勢な状況では、アラインメントを抑えることに依存する緩和手法が特性獲得を確実に抑制できない可能性を示唆している。

概要: MNISTの補助ロジット蒸留実験では、学生は、クラスなし(no-class)のロジットのみを蒸留しているにもかかわらず、「潜在的学習(subliminal learning)」と呼ばれる現象により、意図しない教師の特性を獲得してしまうことがあります。単一ステップの勾配降下(single-step gradient descent)という仮定のもとで、潜在的学習の理論はこの効果を、特性と蒸留勾配との間の整合(alignment)によるものだと説明しますが、この整合が多ステップ設定でも持続することは保証しません。私たちは経験的に、勾配の整合が学習の全期間を通じて弱いながらも一貫して正であり、それが特性の獲得に因果的に寄与していることを示します。整合を減衰させることで機能する対策手法である「リミナル学習(liminal training)」が、この設定では整合を抑えることで動作する一方、特性の獲得を止めることには失敗することを示します。これらの結果は、一次の駆動(first-order drive)が支配的なこの領域で動作する対策手法は、特性の獲得を確実に抑制できない可能性があることを示唆しています。