実データの彼方へ：正則化の観点から見る合成データ

arXiv stat.ML / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実データが乏しいときに、合成データがモデルの汎化を助ける場合と害する場合の違いを理解するための学習理論的枠組みを提案する。
アルゴリズム的安定性を用いて汎化誤差の上界を導出し、最適な「合成対実データ」の比率を、実データ分布と合成データ分布間のワッサースタイン距離に結び付ける。
その理論は、合成データの割合が増えるにつれてテスト誤差がU字型の曲線を描くことを予測し、「合成を増やせば常に良い」という考えではなく、実験的に最適な混合比が存在することを示唆する。
CIFAR-10および臨床用脳MRIデータセットでの実験により、この予測されたU字型の挙動が検証される。
この枠組みはドメイン適応にも拡張でき、限られたソースデータに対して合成ターゲットデータを適切に混ぜることで、ドメインシフトを抑え、汎化を改善できることを示す。

要旨: 合成データは実データが乏しい場合に汎化性能を改善し得ますが、過度な依存は分布の不一致を引き起こし、性能の低下につながる可能性があります。本論文では、合成データと実データの間のトレードオフを定量化するための学習理論的枠組みを提示します。我々の手法はアルゴリズム的安定性を活用して一般化誤差の上界を導出し、期待テスト誤差を最小化する最適な合成データ比率を、実分布と合成分布の間のワッサースタイン距離の関数として特徴づけます。この枠組みを、混合データを用いたカーネルリッジ回帰の設定で動機づけし、独立して興味を引く可能性のある詳細な解析を提供します。我々の理論は、最適比率の存在を予測し、合成データの割合に関してテスト誤差がU字型の挙動を示すことを導きます。実験的には、CIFAR-10および臨床の脳MRIデータセットにおいてこの予測を検証します。さらに本理論は、ドメイン適応という重要な状況にも拡張されており、限られたソースデータと合成ターゲットデータを慎重にブレンドすることで、ドメインシフトを緩和し、汎化を高められることを示します。最後に、ドメイン内およびドメイン外の両方の状況に対して本結果を適用するための実践的な指針を述べます。