注意ヘッド解析によるインコンテキスト学習におけるタスク認識とタスク学習のローカライズ

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、注意ヘッドのメカニスティック(機構的)解析と、タスク認識(TR)とタスク学習(TL)への全体的な分解を組み合わせることで、インコンテキスト学習(ICL)を研究する。
  • タスクサブスペース・ロジット帰属(TSLA)を導入し、どの注意ヘッドがTRとTLに特化しているかを特定し、対応するICL構成要素をそれらのヘッドが独立かつ効果的に表現できることを示す。
  • 相関、アブレーション(機能除去)、および入力摂動実験により、ICLを実行するうえでTRヘッドとTLヘッドが、異なる役割を担いつつも相補的に機能しているという根拠が提示される。
  • 隠れ状態の幾何学的解析に基づくステアリング(誘導)実験は、TRヘッドが隠れ表現をタスク・サブスペースに整列させ、TLヘッドがそのサブスペース内で表現を正しいラベルへ向けて回転させることを示唆する。
  • 著者らは、自身の枠組みが、これまでのICLのメカニズムに関する知見(例:誘導ヘッドやタスクベクトル)を、TR–TLという注意ヘッドの観点と統一し、より解釈可能な説明を与えると主張する。

要旨: 大規模言語モデルにおけるインコンテキスト学習(ICL)の機構的な基盤を、2つの支配的な観点を整合させることで調査します。すなわち、注意ヘッドのコンポーネント・レベル解析と、ICLをタスク認識(TR)とタスク学習(TL)にホリスティックに分解する見方です。本研究では、Task Subspace Logit Attribution(TSLA)に基づく新しい枠組みを提案し、TRとTLに特化した注意ヘッドを同定するとともに、それらが明確に異なる役割を担いつつも相補的であることを示します。相関分析、アブレーション研究、および入力攪乱によって、同定されたTRヘッドとTLヘッドが、それぞれ独立に、かつ効果的に、ICLのTR成分とTL成分を捉えることを示します。隠れ状態の幾何学的解析を用いたステアリング実験により、TRヘッドは隠れ状態をタスク部分空間に整列させることでタスク認識を促進し、TLヘッドは部分空間内で隠れ状態を正しいラベルへ向けて回転させ、予測を容易にすることを明らかにします。さらに、誘導ヘッドやタスクベクトルを含む、ICL機構に関するこれまでの知見が、TR-TL分解の注意ヘッド・レベル解析とどのように整合し得るかも示します。したがって、本枠組みは、大規模言語モデルが多様なタスクや設定においてICLを実行する仕組みを、統一的で解釈可能な形で説明するものとなります。