Prune, Interpret, Evaluate：特徴量の帰属により効率的な回路探索を実現するクロスレイヤー・トランスコーダー・ネイティブ・フレームワーク

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

共有:

要点

本論文は、Pruning（刈り込み）→自動Interpretation（解釈）→evaluation（評価）を一気通貫で行い、特徴量の刈り込みが行動（挙動）の忠実度と解釈可能性に与える影響を定量化するCLTネイティブのエンドツーエンド・フレームワークPIEを提案している。
重要なCLT特徴を順位付けするために、勾配で重み付けしたwrite寄与を集約するFeature Attribution Patching（FAP）を導入し、さらに相乗効果を考慮したFAP-Synergyによる再ランキング手順も提示している。
IOIとDoc-Stringで、複数の特徴量バジェット（K）にわたって、FAPファミリーが他の刈り込みベースラインに対して一貫してKLダイバージェンスに基づく挙動保持で最良または準最良の性能を示す。
具体的には、Llama-3.2-1BおよびGemma-2-2B向けのCLTでIOIを評価したところ、K=100まで刈り込むと、ランダム選択でKL忠実度を同等にするのに必要な約4k特徴量（約40倍の圧縮）と同等の忠実度に到達し、解釈/評価呼び出しを約40倍削減できると報告している。
FADEスタイルの指標で解釈品質も評価され、FAP-Synergyはより厳しい（低バジェット）条件で特に明確な改善をもたらす。

Dev.to

Dev.to

Dev.to

Reddit r/MachineLearning

Reddit r/artificial