エッジから深度へ:ビジョン・トランスフォーマーにおける空間階層の解明

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

要点

  • この論文は、空間監督なしで事前学習されたビジョン・トランスフォーマー(分類学習のみ)が、空間構造をどこでどのように符号化するのかを調べます。
  • BSDS500(局所の境界構造)とNYU Depth V2(パッチごとの深度)に対する層ごとのプロービングにより、階層性として、境界は層5〜6あたりで線形デコーダで読めるようになり、深度はより遅れて層8でピークを迎えることが示されます。
  • 最終の分類層ではこれらの空間シグナルが崩れ、ランダム重みの対照実験から、符号化はモデル構造の偶然ではなく学習によって獲得されたことが示されます。
  • 因果的介入(プローブの特定方向のアブレーションやアクティベーション・パッチング)により、深度の復元は学習された特定の方向に依存し、各層で部分的に再計算(再誘導)されること、そして中間層の介入ほど下流で強く残ることが示されます。
  • 著者らは、分類学習されたViTが、霊長類の視覚皮質に見られる初期から後期への進行に似た空間階層を能動的に維持していると結論づけています。