忠実な自然言語説明を備えたLLMsの因果的根拠に基づく機械的解釈性

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、回路レベルの分析と自然言語による説明を結びつけるパイプラインを提案する。その方法は、活性化パッチングによって因果的に重要なアテンションヘッドを同定し、テンプレートベースとLLMベースの両方の手法で説明を生成し、回路帰属に適応させたERASER風の評価指標を用いて忠実度を評価する。
GPT-2 Small（124Mパラメータ）のIndirect Object Identification(IOI)タスクで評価し、ロジット差の61.4%を説明する6つのアテンションヘッドを特定した。
回路ベースの説明は100%の十分性を達成するが、包括性はわずか22%であり、モデルのヘッド全体に分散したバックアップ機構を明らかにしている。
LLM生成の説明は品質指標でテンプレートベースのベースラインを64%上回る。
モデルの信頼度と説明の忠実度との間に相関は見られず、説明が基盤となる機構とずれる3つの失敗カテゴリを特定した。

機械的解釈性はモデル挙動の原因となる内部回路を特定するが、これらの知見を人間が理解できる説明へ翻訳することは依然として課題である。我々は、回路レベルの分析と自然言語による説明を橋渡しするパイプラインを提示する。具体的には (i) 活性化パッチングによって因果的に重要なアテンションヘッドを同定、(ii) テンプレートベースとLLMベースの両方の方法で説明を生成、(iii) 回路レベル帰属に適応したERASER風の評価指標を用いて忠実度を評価する。GPT-2 Small（パラメータ数124M）におけるIndirect Object Identification(IOI)タスクで評価し、ロジット差の61.4%を説明する6つのアテンションヘッドを特定した。我々の回路ベースの説明は100%の十分性を達成するが、包括性はわずか22%であり、モデルのヘッド全体に分散したバックアップ機構を明らかにしている。LLM生成の説明は品質指標でテンプレートベースのベースラインを64%上回る。我々はモデルの信頼度と説明の忠実度との間に相関がないこと（r = 0.009）を示し、説明が基盤となる機構からずれる3つの失敗カテゴリを特定した。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

忠実な自然言語説明を備えたLLMsの因果的根拠に基づく機械的解釈性

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer