要旨: データ拡張は、画像分類モデルの頑健性を向上させるための主要な手法です。しかし、近年の多くのアプローチは拡散(diffusion)に基づく合成や、複雑な特徴混合戦略に依存しており、実質的な計算オーバーヘッドを導入するか、外部データセットを必要とします。本研究では、別の方向性を探ります。それは、解析的な干渉パターンに基づく手続き的(procedural)拡張です。従来の拡張手法が確率的なノイズ、特徴混合、あるいは生成モデルに依拠しているのに対し、提案手法はモアレ干渉(Moire interference)を活用して、幅広い空間周波数にまたがる構造化された摂動を生成します。閉形式の数学的定式化を用いて、その場で(on-the-fly)モアレ・テクスチャを手続き的に生成する、軽量な拡張手法を提案します。このパターンは、メモリ上で直接合成され、計算コストはほぼ無視でき(画像あたり0.0026秒)、学習中に学習画像と混合され、直ちに破棄されます。これにより、外部データを必要としない、ストレージ不要の拡張パイプラインを実現します。Vision Transformers を用いた大規模な実験により、提案手法が ImageNet-C、ImageNet-R、そして敵対的ベンチマークを含む複数のベンチマークにわたって、頑健性を一貫して改善し、標準的な拡張ベースラインおよび既存の外部データ不要の拡張手法を上回ることを示します。これらの結果は、解析的な干渉パターンが、データ駆動型の生成的拡張手法に対する、実用的かつ効率的な代替手段になり得ることを示唆しています。
MoireMix: 画像分類の頑健性を高めるための数式ベースのデータ拡張
arXiv cs.CV / 2026/3/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MoireMixは、オンザフライで構造化されたモアレ干渉パターンを生成する、数式ベースのプロシージャルなデータ拡張手法であり、画像分類の頑健性を向上させる。
- このアプローチは閉形式の数学的定式化を用いて、非常に低いオーバーヘッド(画像あたり約0.0026秒)でメモリ上にモアレのテクスチャを合成し、外部データセットや生成的拡散モデルを必要としない。
- 学習中、生成したパターンを入力画像と混合し、その後すぐに破棄することで、ストレージ不要の拡張パイプラインを実現する。
- Vision Transformerを用いた実験では、ImageNet-C、ImageNet-R、対敵テストといったベンチマークにわたって一貫した頑健性の向上が確認され、標準のベースラインや、外部データを使わない他の拡張手法よりも優れた性能を示す。
- 著者らは、解析的な干渉パターンが、データ駆動型の生成的拡張手法に対する効率的な代替として機能し得ると結論づけている。