エージェントによる言語モデルの自動的解釈可能性と特徴発見

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルの内部を対象に、説明生成と特徴発見の両方を行う自律型マルチエージェントによるメカニスティック解釈可能性の枠組みを提案しています。
システムは連動する2つのループを用い、説明仮説を競合させながらターゲット化したプロンプト制御と複数指標の評価で反復的に洗練する部分と、活性化空間でk近傍グラフを作り統計的分離性と意味的一貫性で候補を絞り込む部分があります。
Gemma-2ファミリーのモデルおよび、重みが疎なTransformerにおけるMLPニューロンでの実験では、ワンショットの自動解釈手法よりも改善が示されています。
この手法は、検証可能で監査可能な説明トレースを生成し、言語固有や安全に関わる特徴の発見にもつながることを示しています。