合成オーグメンテーションによる機械学習性能の改善
arXiv cs.AI / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、合成オーグメンテーションを機械学習の「有効な学習分布の変更」として捉え直し、バイアスと分散のトレードオフがどのように生じるかを明確化します。
- 合成データはサンプル追加によって推定誤差を減らす可能性がある一方、評価時に重要となる領域と合成分布がずれると、母集団目的を押し下げうると指摘しています。
- 情報的な改善と単なるサンプル数効果を切り分けるために、サイズを一致させたヌル・オーグメンテーションと、弱い時間的依存の下でも妥当な有限標本・ノンパラメトリックなブロック順列検定を提案します。
- ブートストラップ、コピュラモデル、VAE、拡散モデル、TimeGANなど多様な合成データ生成器で、オーグメンテーション比率やモデル容量、タスク種別、レジームの稀少性、信号対雑音を変えて検証し、分散支配の領域では有益だが、バイアス支配では性能が悪化しうることを示します。
- マルコフ・スイッチングの制御環境と、実データ(高頻度のオプショントレードデータや日次の株式パネル)で評価し、金融学習において合成オーグメンテーションが改善をもたらす条件と、分布歪みを持続的に誘発する条件を構造的に示します。



