ヘッシアン強化トークン帰属(HETA):自己回帰型LLMを解釈する

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、デコーダのみ(自己回帰的)LLMにおいて、入力トークンが出力にどのように寄与するかを説明するための手法「Hessian-Enhanced Token Attribution(HETA)」を提案する。ここでは、従来の手法は因果的生成ダイナミクスに対してしばしば破綻する。
  • HETAは、意味的遷移ベクトル、ヘッシアンに基づく2次の感度スコア、そしてトークンをマスクした際のKLダイバージェンスに基づく情報損失を組み合わせることで、文脈を考慮しつつ因果的に忠実な帰属(attribution)を生成する。
  • 本フレームワークは複数のモデルとデータセットで評価され、既存の帰属手法に比べて帰属性の忠実度が向上し、さらに人間の注釈との整合性も良好であることが示される。
  • 著者らは、生成設定に特化して帰属品質を体系的に評価するための、厳選されたベンチマークデータセットも併せて提供する。

要旨: 帰属(attribution)手法は、入力トークンが生成出力にどれだけ寄与したかを定量化することで、言語モデルの予測を説明しようとします。しかし、既存のほとんどの手法はエンコーダベースのアーキテクチャ向けに設計されており、線形近似に依存するため、デコーダのみのモデルにおける自己回帰生成の因果的かつ意味論的な複雑さを捉えられません。これらの制約に対処するために、本研究では、デコーダのみの言語モデルに特化した新しい帰属フレームワークである Hessian-Enhanced Token Attribution(HETA)を提案します。HETA は、互いに補完し合う3つの要素を組み合わせます。層をまたいだトークン間の影響を捉えるセマンティック遷移ベクトル、2次効果をモデル化するヘッセ行列に基づく感度スコア、そしてトークンをマスクしたときの情報損失を測るためのKLダイバージェンスです。この統一的な設計により、文脈に応じた、因果的に忠実で、意味論的に根拠づけられた帰属が得られます。さらに、本研究では、生成設定における帰属品質を体系的に評価するための厳選されたベンチマークデータセットも導入します。複数のモデルおよびデータセットにわたる実験評価により、HETA は帰属の忠実性および人間の注釈との整合性において、一貫して既存手法を上回ることが示され、自己回帰型言語モデルにおける解釈可能性の新たな標準を確立します。