視覚トランスフォーマーにおける敵対的学習での「良性オーバーフィッティング」

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単純化したViTアーキテクチャを用いて、敵対的学習がVision Transformers(ViT)に与える影響を理論的に解析した最初の試みであり、既存研究の理論的な空白を埋めています。
  • 特定の信号対雑音比の条件と、適度な摂動(摂動予算)範囲の下では、一定のレジームにおいて敵対的学習により頑健な学習損失がほぼゼロになり、頑健な汎化誤差も小さくなり得ると論じています。
  • 「良性オーバーフィッティング(benign overfitting)」、すなわち過学習が起きていても汎化性能が強く保たれる現象が報告されており、これはこれまでCNNに対する敵対的学習で主に観測されていました。
  • 合成データセットと実データセットの両方で実験を行い、理論的主張を検証し、提案した条件の妥当性を裏付けています。
  • 全体として本研究は、ViTの敵対的頑健性をCNNで知られる学習ダイナミクスに近い観点で結び付け、頑健なViT学習の理解や設計に新しい指針を与えます。

概要: 幅広い視覚タスクにおいてVision Transformer(ViT)が目覚ましい成功を収めているにもかかわらず、近年の研究では、ViTは畳み込みニューラルネットワーク(CNN)と同様に敵対的(アドバーサリアル)な例に対して脆弱であることが明らかになってきました。一般的な経験的防御戦略は敵対的学習(adversarial training)ですが、ViTにおけるその頑健性の理論的な裏付けはほとんど未検討のままです。本研究では、単純化したViTアーキテクチャに対する敵対的学習の、最初の理論的解析を提示します。特定の条件を満たす信号対雑音比のもとで、また適度な摂動予算の範囲で学習した場合、敵対的学習によって、ある種の領域においてViTが頑健な学習損失をほぼゼロにし、頑健な汎化誤差も小さくできることを示します。驚くべきことに、これは過学習の存在下でも強い汎化をもたらします。この現象は
\emph{良性の過学習(benign overfitting)}と呼ばれ、これまで(敵対的学習を行った)CNNでのみ観測されていました。さらに、合成データセットおよび実世界のデータセットの両方に対する実験により、私たちの理論的知見が検証されます。