ポストトレーニングにおけるデータ拡張不変性

arXiv stat.ML / 2026/4/24

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

本論文は、拡張（データオーギュメンテーション）による不変性を事前学習済みネットワークに追加しつつ、非拡張の元の入力分布に対する振る舞いを変えないことを目標とする「ポストトレーニング拡張不変性」の枠組みを提案しています。
中核となる仕組みとして「拡張エンコーダ」（確率的エンコーダで、拡張に基づくエンコード過程を形式化するもの）を導入し、学習目的として Markov-Wasserstein minimization と Wasserstein correlation maximization の2つの損失を定義しています。
実験では、これらの損失で学習した軽量な1隠れ層MLPアダプタを、事前学習済みの特徴抽出器に後付けすることで、不変性を（近似的に）実現できることを示しています。
STL10でDINOv2特徴を用いた例では、回転画像の分類精度がアダプタなし（71%）から94%へ改善し、さらにノイズ不変の分類結果も 58%から86%へ向上します。
著者らは、事前学習バックボーンは微調整せず凍結したままでよく、非拡張の潜在特徴への影響も小さいと報告している一方、SimCLRやHSIC最大化といった別候補損失で学習したアダプタは性能が不十分で潜在空間を損なう可能性があることを示しています。

要旨: 本研究では、事前学習済みネットワークの振る舞いを、元の（非拡張）入力分布に対して変えずに、事後学習（post-training）における拡張不変性を付与するための枠組みを開発する。まずこの概念を厳密に定義し、さらに、確率的エンコーダである拡張エンコーダを導入する。拡張エンコーダは、拡張に基づくエンコーディング過程を形式化し、本研究の基礎的な対象となる。我々は拡張エンコーダに対して2つの損失、すなわち Markov-Wasserstein の最小化と、Wasserstein 相関の最大化を提案し、さらに実験的に、これら2つの損失のいずれもが、軽量で1つの隠れ層をもつ MLP アダプタネットワーク E\theta を学習するのに使えることを示す。これらは、事前学習済みネットワーク F の潜在空間に付加したとき、（近似的な）事後学習拡張不変性を実際に導く。たとえば、F = DINOv2 の特徴量を用いた STL10 では、線形分類器 C と、提案するアダプタネットワークの1つである E\theta を用いた複合ネットワーク C o E\theta o F が、任意に回転した画像に対して 94% の分類精度を達成する。一方、アダプタ E\theta のないネットワーク C o F は 71% に低下する。同様に、ノイズ不変な分類の結果を 58% から 86% へと引き上げることもできる。重要な点として、これらの結果は微調整なしで得られる（F の重みは学習中ずっと固定されたまま）うえに、E\theta が非拡張の潜在分布に対してほぼ等長的に作用するため、元の特徴量への破壊（汚染）はほとんど起こらない。対照的に、別の候補損失、具体的には SimCLR と HSIC 最大化で学習したアダプタネットワークは、競争力のない分類結果を生み出し、根本的に元の潜在空間を損なうことを示す。コードは以下で公開: https://github.com/keenan-eikenberry/augmentation_invariance