AI Navigate

Attention-guided Knowledge Distillation を用いたニューラル機械翻訳における Explainable AI アトリビューション手法の評価

arXiv cs.AI / 2026/3/13

💬 オピニオン

要点

  • 教師由来のアトリビューションマップをサイド信号として用い、学生モデルを導くことで、トランスフォーマーを基盤とした seq2seq モデルにおける Explainable AI アトリビューション手法を体系的に評価する方法を提案し、ターゲットを模倣する学生の能力を通じてアトリビューション手法の有用性を測定します。
要旨: ニューラルネットワークモデルの入力特徴が出力へ寄与することのアトリビューションの研究は活発な領域である。多数の Explainable AI (XAI) 手法が提案され、これらのモデルを解釈することは可能だが、シーケンス対シーケンス(seq2seq)モデルにおけるこれら手法の体系的で自動化された評価はあまり研究されていない。本論文は、Transformer ベースの seq2seq モデルにおける explainability methods の評価の新しいアプローチを提案する。我々は教師由来のアトリビューションマップを構造化されたサイド信号として用い、学生モデルを導くとともに、ターゲットを模倣する学生の能力を通じて異なるアトリビューション手法の有用性を定量化する。Inseq ライブラリを用いて、source–target のシーケンス対にわたるアトリビューションスコアを抽出し、これらのスコアを、四つの構成演算子(加算、乗算、平均化、置換)の下で学生トランスフォーマーモデルの注意機構に注入する。三つの言語ペア(de-en、fr-en、ar-en)および Marian-MT および mBART モデルからのアトリビューションについて、Attention、Value Zeroing、Layer Gradient × Activation は、ベースラインに対して BLEU の最大の改善を一貫してもたらし、chrF の対応する改善も生じる。対照的に、他の勾配ベースの手法(Saliency、Integrated Gradients、DeepLIFT、Input × Gradient、GradientShap)は、より小さく、より一貫性の低い改善をもたらす。これらの結果は、異なるアトリビューション手法が異なる信号を捉えることを示唆し、注意機構由来のアトリビューションは seq2seq モデルにおける source と target 表現の整列をよりよく捉えることを示している。最後に、ソースとターゲットのペアを与えると、教師のアトリビューションマップを再構成する Attributor トランスフォーマーを導入する。我々の知見は、Attributor がアトリビューションマップをより正確に再現できればできるほど、下流タスクに対するそのマップの注入がより有用になることを示している。ソースコードは GitHub に公開されている。