合成オーグメンテーションによる機械学習性能の改善

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、合成オーグメンテーションを機械学習の「有効な学習分布の変更」として捉え直し、バイアスと分散のトレードオフがどのように生じるかを明確化します。
合成データはサンプル追加によって推定誤差を減らす可能性がある一方、評価時に重要となる領域と合成分布がずれると、母集団目的を押し下げうると指摘しています。
情報的な改善と単なるサンプル数効果を切り分けるために、サイズを一致させたヌル・オーグメンテーションと、弱い時間的依存の下でも妥当な有限標本・ノンパラメトリックなブロック順列検定を提案します。
ブートストラップ、コピュラモデル、VAE、拡散モデル、TimeGANなど多様な合成データ生成器で、オーグメンテーション比率やモデル容量、タスク種別、レジームの稀少性、信号対雑音を変えて検証し、分散支配の領域では有益だが、バイアス支配では性能が悪化しうることを示します。
マルコフ・スイッチングの制御環境と、実データ（高頻度のオプショントレードデータや日次の株式パネル）で評価し、金融学習において合成オーグメンテーションが改善をもたらす条件と、分布歪みを持続的に誘発する条件を構造的に示します。

Abstract

合成オーグメンテーションは、金融における機械学習のデータ不足を緩和するためにますます用いられている一方で、その統計的役割はいまだ十分に理解されていません。私たちは合成オーグメンテーションを、実効的な学習分布の修正として形式化し、それが構造的なバイアス—分散のトレードオフを引き起こすことを示します。追加サンプルは推定誤差を低減し得る一方で、合成分布が評価時に重要となる領域から逸脱する場合には、人口（population）目的関数をも変えてしまう可能性があります。機械的なサンプルサイズ効果によるものと、情報の獲得によるものを切り分けるために、サイズを一致させたヌル（null）オーグメンテーションと、弱い時間的依存の下でも有効な有限標本・ノンパラメトリックなブロック順列検定を導入します。本フレームワークを、制御されたマルコフスイッチング環境と、実金融データセットの両方で評価します。高頻度のオプショントレードデータや日次の株式パネルを含めます。ブートストラップ、コピュラベースのモデル、変分オートエンコーダ、拡散モデル、TimeGANにまたがる生成器について、オーグメンテーション比、モデルの能力（capacity）、課題タイプ、レジームの稀少性（regime rarity）、信号対雑音比を変化させます。合成オーグメンテーションは、持続的なボラティリティ予測のような分散が支配的なレジームでのみ有益であり、近効率的な方向性予測のようなバイアスが支配的な設定では性能を悪化させることを示します。稀少レジームへのターゲティングは領域固有の指標を改善し得ますが、無条件の順列推論と衝突することがあります。これらの結果は、合成データがいつ金融の学習性能を改善するのか、また一方でいつ持続的な分布の歪みを引き起こすのか、という観点を構造的に与えるものです。