要約: トランスフォーマーベースの大規模言語モデル(LLMs)の内部機構を理解することは、それらを信頼性の高い展開と効果的な運用のために極めて重要です。最近の取り組みにより、忠実性と計算効率の両立を目指す多数のアトリビューション手法が生まれている一方で、密に結合したコンポーネントのアトリビューションは依然として高コストです。本研究では、反事実的な例を必要とせず、1回の前向き伝播と1回の後向き伝播で固定化されたトランスフォーマー上の情報の流れを忠実にたどる新しい枠組み「Dual Path Attribution(DPA)」を提案します。DPA は、SwiGLU トランスフォーマーの計算構造を分析的に分解し、各残差位置で有効な表現を受け取るために、ターゲットとなる unembedding ベクトルを伝播させる異なる経路へと線形化します。ターゲット中心の伝播は、モデルコンポーネントの数に関して O(1) の時間計算量を達成し、長い入力系列や密なコンポーネントのアトリビューションにスケールします。標準的な解釈性ベンチマークにおける広範な実験は、DPA が既存のベースラインと比較して、最先端の忠実性と前例のない効率を達成することを示しています。
デュアルパス・アトリビューション:層別ターゲット伝播による SwiGLU トランスフォーマーの効率的属性付け
arXiv cs.LG / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 反事実を必要とせず、1回のフォワードパスと1回のバックワードパスのみで SwiGLU トランスフォーマーの忠実なアトリビューションを実現する。
- 本手法は、トランスフォーマーの計算を分析的に分解・線形化し、対象の unembedding ベクトルに対応する伝播経路を明確化することで、各残差位置において有効な表現を得る。
- モデル構成要素の数に対して O(1) の時間計算量を達成し、長い入力系列や多数のコンポーネントを対象とした密な分析において、効率的なアトリビューションを実現する。
- 標準的な解釈性ベンチマークでの実験は、最先端の忠実性を示し、既存のベースラインと比較して大幅に効率性が向上している。
- 本手法は凍結済みのトランスフォーマー設定に焦点を当て、大規模言語モデル(LLMs)における情報フローの理解を深め、解釈可能なツール開発の一助となる可能性がある。