ヘッシアン強化トークン帰属（HETA）：自己回帰型LLMを解釈する

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、デコーダのみ（自己回帰的）LLMにおいて、入力トークンが出力にどのように寄与するかを説明するための手法「Hessian-Enhanced Token Attribution（HETA）」を提案する。ここでは、従来の手法は因果的生成ダイナミクスに対してしばしば破綻する。
HETAは、意味的遷移ベクトル、ヘッシアンに基づく2次の感度スコア、そしてトークンをマスクした際のKLダイバージェンスに基づく情報損失を組み合わせることで、文脈を考慮しつつ因果的に忠実な帰属（attribution）を生成する。
本フレームワークは複数のモデルとデータセットで評価され、既存の帰属手法に比べて帰属性の忠実度が向上し、さらに人間の注釈との整合性も良好であることが示される。
著者らは、生成設定に特化して帰属品質を体系的に評価するための、厳選されたベンチマークデータセットも併せて提供する。

要旨: 帰属（attribution）手法は、入力トークンが生成出力にどれだけ寄与したかを定量化することで、言語モデルの予測を説明しようとします。しかし、既存のほとんどの手法はエンコーダベースのアーキテクチャ向けに設計されており、線形近似に依存するため、デコーダのみのモデルにおける自己回帰生成の因果的かつ意味論的な複雑さを捉えられません。これらの制約に対処するために、本研究では、デコーダのみの言語モデルに特化した新しい帰属フレームワークである Hessian-Enhanced Token Attribution（HETA）を提案します。HETA は、互いに補完し合う3つの要素を組み合わせます。層をまたいだトークン間の影響を捉えるセマンティック遷移ベクトル、2次効果をモデル化するヘッセ行列に基づく感度スコア、そしてトークンをマスクしたときの情報損失を測るためのKLダイバージェンスです。この統一的な設計により、文脈に応じた、因果的に忠実で、意味論的に根拠づけられた帰属が得られます。さらに、本研究では、生成設定における帰属品質を体系的に評価するための厳選されたベンチマークデータセットも導入します。複数のモデルおよびデータセットにわたる実験評価により、HETA は帰属の忠実性および人間の注釈との整合性において、一貫して既存手法を上回ることが示され、自己回帰型言語モデルにおける解釈可能性の新たな標準を確立します。

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

日経XTECH

AIエージェントをビジネス活用、知っておくべきRAGとマルチモーダルの基本

日経XTECH

ヘッシアン強化トークン帰属（HETA）：自己回帰型LLMを解釈する

要点

関連記事

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

AIエージェントをビジネス活用、知っておくべきRAGとマルチモーダルの基本

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

米アンソロピックがMythos発表に続き「Cowork」一般提供 「SaaSの死」再燃

AIエージェントをビジネス活用、知っておくべきRAGとマルチモーダルの基本

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃