タスクベクターは抽出されるのではなく学習される:性能向上とメカニズム的洞察

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、インコンテキスト学習における「デモンストレーション」をタスクベクター(TV)として表現できると主張するが、従来の抽出手法は手間がかかる上に、TVが実際に計算にどう影響するのかを説明できていなかった。
  • そこで、隠れ状態/出力から抽出するのではなく、直接学習するLearned Task Vectors(LTV)を導入し、精度の向上、層/位置をまたいだ柔軟性、インコンテキスト学習プロンプトとの両立性を報告する。
  • メカニスティックな分析により、著者らはTVが主に、注意ヘッドのOV(output projection)回路を通じて予測に影響しており、効果の大部分を担うのは少数の「キー・ヘッド」であることを示す。
  • さらに、トランスフォーマーの非線形性にもかかわらず、TVの伝播はネットワーク全体で概ね線形であることを見いだす。具体的には、初期のTVはタスクに関係するサブスペースへと回転し、関連するラベルのロジットを改善し、後段のTVは主にその大きさ(スケール)を調整する。

抄録: 大規模言語モデル(LLM)は、文脈中のデモンストレーションから新しいタスクを実行できます。これは文脈内学習(ICL)として知られる現象です。近年の研究では、これらのデモンストレーションがタスクベクトル(TV)へ圧縮されており、タスクベクトルはコンパクトなタスク表現であって、LLMが予測のためにそれを活用していると示唆されています。しかし、従来の研究では、モデル出力や隠れ状態からTVを抽出することが一般的で、その手法は面倒で不透明であることが多く、さらにTVが計算に影響を与える仕組みを明らかにすることはほとんどありません。本研究では、これら2つの制約の両方に取り組みます。まず、抽出されたTVよりも精度が高く、任意の層や位置、さらにはICLプロンプトでも効果的に働く、高い柔軟性を備えた学習済みタスクベクトル(LTV)を、直接学習することを提案します。次に、体系的な分析により、TVの機械的な役割を調べます。その結果、低レベルでは、TVは主としてアテンションヘッドのOV回路を通じて予測を誘導しており、「キーヘッド」と呼ばれる少数のヘッドが最も決定的であることが分かります。さらに高いレベルでは、Transformerの非線形性があるにもかかわらず、TVの伝播は概ね線形であることを見出します。すなわち、初期のTVは関連するラベルのロジットを改善するためにタスク関連の部分空間へ回転され、一方で後期のTVは主として大きさ(マグニチュード)をスケーリングされます。まとめると、LTVは効果的なTVを得るための実用的なアプローチを提供するだけでなく、ICLの機械的基盤に関する原理的な見取り図も提供します。