Perturbation:言語モデルにおける表現学習のための単純で効率的な敵対的トレーサ

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「Perturbation」という手法を提案している。言語モデルの表現学習を調べるために、単一の敵対的例で微調整し、その変化が他の入力へどのように「感染(infect)」していくかを追跡することで、表現がどのように学習されるかをプローブする。
  • 表現を固定された活性パターンではなく「学習のための導管(conduits for learning)」として捉え、過度に制約的な幾何学的仮定と、表現を単なるものとして矮小化してしまう(自明視する)ことの間にあると報告されたジレンマを解消することを目指している。
  • 提案手法は仮定を軽くした設計(幾何学的制約なし)であり、学習されていないモデルであっても偽の表現(spurious representations)を生成しないことが主張されている。
  • 学習済みの言語モデルに対する実験では、複数の言語的な粒度にわたって構造化された転移が観測され、学習された抽象化が表現空間において一般化することを示しているとされる。
  • 全体として本研究は、学習によって言語モデルが獲得する表現が、課された構造ではなく「学習経験」からどのように生じるのかを調べるための、単純で効率的なトレーサを提供する。

Abstract

深層ニューラル言語モデル(LMs)における言語的表現学習は、実用的および理論的な理由の両方から、何十年も研究されてきた。しかし、LMにおける表現を見つけることはいまだ未解決の問題である。これは一部には、表現に対して不 plausibly な制約(例:線形性;Arora et al., 2024)を課すことと、表現という概念そのものをすべて単純化してしまうこと(Sutter et al., 2025)との間のジレンマによる。ここでは、このジレンマを、表現を「活性化のパターン」としてではなく、「学習のための導管」として再概念化することで回避する。我々のアプローチは単純である。すなわち、LMを単一の敵対的例でファインチューニングすることにより擾乱(perturbation)を加え、その擾乱が他の例にどのように「感染」するかを測定する。擾乱は幾何学的な仮定を一切置かず、また他の手法とは異なり、(未学習のLMにおいてのように)見つけるべきでない場所に表現を見つけることもしない。しかし、学習済みのLMでは、擾乱によって複数の言語的粒度(grain sizes)にまたがる構造化された転移が明らかになる。これは、LMが表現に沿って一般化するだけでなく、経験のみから言語的な抽象化も獲得していることを示唆している。