Adjoint Inversion により CNN 分類器におけるホログラフィック重ね合わせと破壊的干渉が明らかにされる

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Magnitude–Phase デカップリングと Local Adjoint Correctors に基づく、幻覚(ハルシネーション)のない CNN 逆変換フレームワークを提案し、再構成における空間勾配が「実際に活性なチャネル」だけに由来することを数学的に保証する。
  • この幾何学的プローブを用いて、視覚エンコーダがチャネル間で強いホログラフィック重ね合わせを持つことを、ピクセルレベルの証拠として初めて示す。
  • 各チャネルの逆変換は一様にホログラフィックであり、正の重みと負の重みの再構成は見た目・エネルギーの両面で区別できない一方、その代数和は前景へと鋭く集中することを示す。
  • 分類は破壊的干渉によって行われると結論づけ、分類器の重みがピクセル空間の共有する背景方向を打ち消し、クラス識別的な残差を建設的に組み立てることで Spatial Funnel Hypothesis を直接反証する。
  • 必要なチャネル数を、許容される干渉部分空間の体積という幾何学量として捉え、これが GAP の共分散行列式と双対であることを証明し、(1−1/e) 近似保証を持つ「共分散体積に基づくチャネル選択」手法を導く;さらに OOD 失敗を、干渉ベース分類に必須な共分散体積の崩壊として測定可能に示す。

Abstract

CNN解釈可能性における基礎的な仮定――深いエンコーダは背景ピクセルを抑制し、分類器は単にクリーンアップされた特徴プールから選択する(空間ファネル仮説)――は、既存の可視化ツールにおける空間的な幻覚(ハルシネーション)により検証されていませんでした。私たちは、マグニチュード―位相のデカップリングとLocal Adjoint Correctors(局所随伴補正器)に基づく、幻覚のない反転(インバージョン)フレームワークを導入することでこの問題に対処します。この手法は、すべての再構成における空間勾配のサポートが、真に活性なチャンネルにのみ厳密に由来することを数学的に保証します。 このフレームワークを幾何学的なプローブとして用いることで、視覚エンコーダにおける強い重ね合わせ(スーパー ポジション)について、初めてピクセルレベルの証拠を明らかにします。チャンネルごとの反転は一様にホログラフィックであり、正の重みと負の重みの再構成は、視覚的にもエネルギー的にも区別できないことを示します。しかし、それらの代数和は前景へ鋭く集中します。これは、分類が破壊的干渉を通じて機能していることを証明します――分類器の重みはピクセル空間における共有された背景方向を相殺し、クラス識別的な残差を建設的に組み立てることで、空間ファネル仮説を直接的に反証します。 この干渉モデルは、許容される干渉部分空間の体積を、チャンネル要件を支配する幾何学的量として特定します。この体積がGAP共分散行列の決定因子(determinant)に対して双対であることを証明し、(1-1/e) の近似保証を持つ共分散体積チャネル選択アルゴリズムを導きます。このアルゴリズムは、干渉ベース分類に必須な共分散体積が、測定可能な崩壊として現れることで、分布外(OOD)失敗を数学的に明らかにします。私たちのフレームワークは、再学習なしで注意(attention)ベースのヘッドにもシームレスに拡張できます。