回路の向こうを見る:ビジョン・トランスフォーマーに対する忠実なメカニスティック解釈可能性

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、メカニスティック解釈可能性には「ニューロン単位の情報」を超えた回路レベルの透明性が必要だとし、特にビジョン・トランスフォーマーで重要性を強調しています。
  • 提案手法の Automatic Visual Circuit Discovery(Vi-CD)により、ビジョン・トランスフォーマーから分類に関するクラス特有の“エッジベース”回路(計算グラフ)を復元できることを示します。
  • Vi-CDは、CLIPにおけるタイポグラフィ攻撃に関連する回路の特定にも成功しており、攻撃がモデル内部のどの成分を通って広がるかを理解しやすくします。
  • さらに、有害なモデル挙動を「ステアリング(制御)」して是正できるような回路も発見され、解釈可能性の成果が実行可能(アクショナブル)である点が示されます。
  • 総じて、本研究はビジョン・トランスフォーマーから有意義なエッジベースのメカニスティック回路を抽出でき、モデル内部計算の透明性が高まることを示しています。

要旨: ニューラルネットワークの内部推論の透明性は、解釈可能性研究の中核にあります。これにより、これらのモデルに対する信頼、安全性、そして理解が高まります。機構的解釈可能性の分野では、近年、接続(エッジ)によってモデル構成要素同士を結ぶことで定義される、タスク固有の計算グラフの研究に焦点が当てられています。このようなエッジベースの回路は大規模言語モデルの文脈で定義されてきた一方で、これまでの視覚ベースのアプローチではニューロンベースの回路のみが考慮されてきました。これらはどの情報が符号化されているかは示しますが、ニューラルネットワークの複雑な配線の中でそれがどのように経路付けられるのかまでは示しません。本研究では、視覚トランスフォーマーにおける計算グラフによって、有用な機構的回路が同定できるかどうかを調査します。分類のためのクラス固有の回路を復元し、CLIPにおけるタイポグラフィック攻撃の背景にある回路を特定し、さらに有害なモデル挙動を正しく誘導するために適した回路を発見する、自動可視回路発見(Vi-CD)のための効果的な手法を提案します。全体として、視覚トランスフォーマーから洞察に富み実行可能なエッジベースの回路を復元でき、これらのモデルの内部計算に透明性を付与できることを見出します。