アブストラクト: データ拡張や同変(equivariant)アーキテクチャといった、機械学習における対称性を意識した手法は、元のデータセットのあらゆる変換(例:回転や置換)に対して正しいモデル挙動を促します。これらの手法は、変換されたデータ点がテスト分布のもとで非常に高確率、すなわち「重要」であるという仮定のもとで、汎化性能とサンプル効率を改善できます。本研究では、この仮定を批判的に評価するための手法を開発します。具体的には、元のデータセットと、そのランダムな拡張による同値データセットとを区別する二標本分類器検定を通じて、データセットにおける対称性の破れ(symmetry breaking)の量を定量化する指標を提案します。我々はこの指標を合成データセットで検証し、その後それを用いて、いくつかのベンチマークとなる点群データセットにおいて、驚くほど高い水準の対称性の破れが存在することを明らかにします。これは、きわめて深刻な種類のデータセットバイアスを構成します。無限特徴量極限における不変リッジ回帰(invariant ridge regression)について、ラベルが本当に不変であるとしても、分布における対称性の破れは、不変な手法の性能を最適にし得ないことを理論的に示します。経験的には、対称性を意識した手法への示唆はデータセット依存です。同変手法は、対称性に偏ったデータセットの一部では恩恵を与えますが、他ではそうではなく、特にその対称性バイアスがラベルを予測可能な場合に該当します。全体として、これらの結果は、不変性(equivariance)を—それが機能するときだけでなく、なぜ機能するのかも含めて—理解するには、データにおける対称性バイアスを再考することが必要であることを示唆しています。
拡張するか、しないか? 分布の対称性の破れを診断する
arXiv stat.ML / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「対称性の破れ」がデータセット内にどれほど存在するかを定量化するための指標を導入する。具体的には、元データと、それに対してランダムな拡張(augmentation)を施したデータを区別するための2サンプル分類器テストを用いる。
- 合成データに対してこの指標を検証したところ、いくつかのベンチマーク点群データセットで想定外に大きい対称性の破れの水準が観測された。これは、データセットに強いバイアスが存在することを示唆している。
- 著者らは理論的に、分布の対称性の破れが、ラベルが本当に不変である場合でも、(不変性を仮定する)手法の性能を制限し得ることを示す。無限の特徴量の極限における、不変なリッジ回帰の例で実証される。
- 実験結果から、対称性を意識したアプローチ(例:同変(equivariant)な手法やaugmentation)の有効性はデータセット依存であることが示される。効果が持続するのは主に、対称性バイアスがラベルを予測できない場合である。