大規模言語モデルにおける大規模自動注意パターン発見
arXiv cs.LG / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、機械論的解釈可能性の手法はしばしばスケールせず、また一般化もしないと主張し、Javaコードのデータセットから得られる構造化された補完データを用いて、大規模言語モデルにおける反復的なふるまいを採掘することを提案している。
- 複数ヘッドにわたる注意(attention)パターンは、モデル構成要素のグローバルな解釈可能性に向けたスケーラブルなシグナルとして機能し、通常の統制された実験よりもはるかに大規模な研究規模での解析を可能にすることを示す。
- 著者らは、マスクされた注意パターンを再構成するビジョントランスフォーマーに基づく Attention Pattern-Masked Autoencoder(AP-MAE)を導入し、StarCoder2において高い精度とモデルをまたいだ一般化を示している。
- 実験では、反復する注意パターンを用いて、正解ラベル(ground-truth labels)なしに生成の正しさを予測できることが示され(タスクにより55%〜70%の精度)、さらに標的化した介入によって精度を13.6%向上できる一方で、過度に広範な介入はモデルの崩壊(model collapse)を引き起こすことが分かる。
- 本研究はコードとモデルを公開し、AP-MAEを解釈可能性と介入の双方に対して転用可能な基盤として位置づけるとともに、きめ細かな機械論的アプローチのための選択メカニズムとしても位置づけている。




