AI Navigate

Gradient Atoms: 訓練勾配のスパース分解による無監督発見・帰属・モデル挙動の誘導

arXiv cs.AI / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Gradient Atoms は、前処理済み固有空間における辞書学習を用いて、各ドキュメントの訓練勾配をスパース成分(「アトム」)へ分解する無監督手法です。
  • 発見された 500 個のアトムのうち、最も高い一貫性を持つものは、ラベルなしで、拒否、算術、Yes/No 分類、トリビア QA などの解釈可能なタスク種別の挙動を回復します。
  • これらのアトムはステアリングベクトルとしても機能します。重み空間の摂動として適用すると、モデル挙動に大きく、かつ制御可能な変化を生み出します(例: 箇条書き生成が 33% から 94% へ、体系的な拒否が 50% から 0% へ低下)。
  • 本手法は、クエリ文書のスコアリング段階を必要とせず、クエリ挙動の数に依存せずにスケールします。コードは https://github.com/jrosseruk/gradient_atoms で公開されています。

要旨: トレーニングデータ寄与度(TDA)手法は、どの訓練文書がモデルの挙動に責任を負うのかを問います。私たちは、この文書ごとの枠組みはファインチューニングの実際の動作と根本的に合っていないと主張します。モデルはしばしば、多くの例に共通する広い概念を学習します。既存のTDA手法は教師ありです――クエリ挙動を要求し、それからすべての訓練文書をそれに対してスコアします――これにより高コストとなり、ユーザーが尋ねるつもりのなかった挙動を表面化できません。私たちは Gradient Atoms を提示します。これは、前処理済み固有空間で辞書学習を通じて、文書ごとの訓練勾配を疎な成分(「アトム」)に分解する教師なしの手法です。発見された500個のアトムのうち、最も高いコヒーレンスを持つものは、解釈可能なタスクタイプの挙動をラベルなしで回復します――拒否、算術、はい/いいえ分類、トリビアQA――。これらのアトムは効果的なステアリングベクトルとしても機能します。重み空間の摂動として適用すると、モデルの挙動に大きく、制御可能なシフトを生み出します(例: 箇条書き生成が33%から94%へ;体系的な拒否が50%から0%へ)。この手法はクエリ文書のスコアリング段階を必要とせず、関心のあるクエリ挙動の数に独立してスケールします。コードはこちら: https://github.com/jrosseruk/gradient_atoms