解釈可能性エージェントの評価における落とし穴

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は自動化された解釈可能性エージェントの評価方法を検討し、回路解析タスク中にモデルの構成要素を説明するLLM主導のシステムに焦点を当てる。
  • エージェントが反復的に実験を設計し仮説を洗練させるエージェント指向の研究システムを構築し、その説明を6名の人間専門家の説明と比較する。
  • この研究は再現ベースの評価の落とし穴を明らかにし、具体的には人間の説明の主観性と不完全性、そしてLLMが公開された知見を記憶したり推測したりするリスクを含む。
  • 教師なしの本質的評価フレームワークを提案し、モデルの構成要素の機能的互換性に基づく評価で解釈可能性システムをより適切に評価する。
  • この研究は、複雑な自動化解釈可能性の評価における根本的な課題を浮き彫りにし、従来の再現ベースの方法の信頼性を問う。

要約: 自動化された解釈可能性システムは、人間の労働の必要性を減らし、分析をますます大規模なモデルと多様なタスクへと拡張することを目指します。
最近、この目標に向けた取り組みは、LLMs(大規模言語モデル)をますます自律性の高いレベルで活用しており、固定的なワンショットのワークフローから完全自律的な解釈エージェントまで幅広く適用されています。
この変化は、生成される説明の量と複雑さの両方に追いつくよう、評価手法をスケールさせる必要性を生み出します。
この課題を自動回路分析の文脈で検討します――特定のタスクを実行する際のモデルの構成要素の役割を説明すること。
この目的を達成するため、研究エージェントが反復的に実験を設計し、仮説を精練するエージェント主導のシステムを構築します。
文献中の6つの回路分析タスクにおける人間の専門家の説明と比較して評価すると、システムは競争力があるように見えます。
しかし、より詳しく検討すると、再現ベースの評価にはいくつかの落とし穴があることが明らかになります。人間の専門家の説明は主観的であったり不完全であったりする可能性があり、結果ベースの比較は研究プロセスを覆い隠すことがあり、LLMベースのシステムは記憶による再現や根拠に基づく推測によって公表済みの発見を再現することがあります。
これらの落とし穴の一部に対処するため、モデルの構成要素の機能的な互換性に基づく教師なしの内在的評価を提案します。
本研究は、複雑な自動解釈可能性システムを評価する際の根本的な課題を示し、再現ベースの評価の主要な限界を明らかにします。