文脈内学習における時間的依存関係:誘導ヘッドの役割
arXiv cs.CL / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、いくつかのオープンソースLLMが、入力系列中で繰り返されるトークンの直後に続くトークンに対して最も高い確率を割り当てる(+1ラグ挙動)という、系列想起(serial-recall)に似たバイアスを示すことを通じて、LLMの文脈内学習のあり方を調べる。
- アブレーション実験により、「誘導ヘッド(induction heads)」—すなわち、現在のトークンが以前に出現したことに続く、その直後のトークンに注意を向ける注意ヘッド—が、この時間的依存パターンの主要なメカニズム的駆動要因であることを特定する。
- 誘導スコアが高い注意ヘッドを取り除くと、+1ラグバイアスが大幅に低減される一方で、無作為に選んだヘッドをアブレーションしても同様の効果は得られない。
- 本研究はさらに、高誘導ヘッドのアブレーションは、無作為ヘッドのアブレーションよりも、少数ショットのプロンプトによる系列想起性能をより強く劣化させることを見出している。
- 全体として、本結果は、トランスフォーマー型の文脈内学習における、順序化された時間的文脈の想起と誘導ヘッドとの間に、メカニズムとして特定可能な結び付きを与える。




