Perturbation:言語モデルにおける表現学習のための単純で効率的な敵対的トレーサ
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「Perturbation」という手法を提案している。言語モデルの表現学習を調べるために、単一の敵対的例で微調整し、その変化が他の入力へどのように「感染(infect)」していくかを追跡することで、表現がどのように学習されるかをプローブする。
- 表現を固定された活性パターンではなく「学習のための導管(conduits for learning)」として捉え、過度に制約的な幾何学的仮定と、表現を単なるものとして矮小化してしまう(自明視する)ことの間にあると報告されたジレンマを解消することを目指している。
- 提案手法は仮定を軽くした設計(幾何学的制約なし)であり、学習されていないモデルであっても偽の表現(spurious representations)を生成しないことが主張されている。
- 学習済みの言語モデルに対する実験では、複数の言語的な粒度にわたって構造化された転移が観測され、学習された抽象化が表現空間において一般化することを示しているとされる。
- 全体として本研究は、学習によって言語モデルが獲得する表現が、課された構造ではなく「学習経験」からどのように生じるのかを調べるための、単純で効率的なトレーサを提供する。