Prune, Interpret, Evaluate:特徴量の帰属により効率的な回路探索を実現するクロスレイヤー・トランスコーダー・ネイティブ・フレームワーク

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、Pruning(刈り込み)→自動Interpretation(解釈)→evaluation(評価)を一気通貫で行い、特徴量の刈り込みが行動(挙動)の忠実度と解釈可能性に与える影響を定量化するCLTネイティブのエンドツーエンド・フレームワークPIEを提案している。
  • 重要なCLT特徴を順位付けするために、勾配で重み付けしたwrite寄与を集約するFeature Attribution Patching(FAP)を導入し、さらに相乗効果を考慮したFAP-Synergyによる再ランキング手順も提示している。
  • IOIとDoc-Stringで、複数の特徴量バジェット(K)にわたって、FAPファミリーが他の刈り込みベースラインに対して一貫してKLダイバージェンスに基づく挙動保持で最良または準最良の性能を示す。
  • 具体的には、Llama-3.2-1BおよびGemma-2-2B向けのCLTでIOIを評価したところ、K=100まで刈り込むと、ランダム選択でKL忠実度を同等にするのに必要な約4k特徴量(約40倍の圧縮)と同等の忠実度に到達し、解釈/評価呼び出しを約40倍削減できると報告している。
  • FADEスタイルの指標で解釈品質も評価され、FAP-Synergyはより厳しい(低バジェット)条件で特に明確な改善をもたらす。