生成モデルによる合成飛行データ生成

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、航空研究におけるデータ不足や機密性といった課題に対処するため、生成モデルで現実的な合成飛行データを作る可能性を検討しています。
  • 合成データの品質を、統計的類似性、忠実度、多様性、下流の予測タスクへの有用性という観点で評価する4段階の枠組みを提示しています。
  • Tabular Variational Autoencoder(TVAE)とGaussian Copula(GC)の2手法を比較し、GCが統計的類似性と忠実度でより高い結果を示します。
  • ただしGCは計算コストが高いため大規模データへの適用が難しく、TVAEは大規模に効率よく合成データ生成できると示されています。
  • 合成飛行データで学習したモデルは、遅延・欠航・転回事象・折り返し時間などの予測で、実データ学習と同程度の精度を達成できることを明らかにしています。

Abstract

航空研究における合成データの導入が進むことは、データ不足や機密性の課題に対する有望な解決策を提供する。 本研究では、生成モデルが現実的な合成飛行データを生成できる可能性を調査し、包括的な4段階の評価フレームワークを通じてその品質を評価する。 合成飛行データが必要とされるのは、機密性のある現実世界の記録の代替として機能し、また過去のデータセットにおける希少な事象を補強できる可能性があるためである。 これらの強化されたデータセットは、その後、飛行の遅延、欠航、目的地変更(ダイバージョン)、および折り返し(ターンアラウンド)時間といった重要な事象を予測する機械学習モデルの学習に用いることができる。 2つの生成モデル、Tabular Variational Autoencoder(TVAE)とGaussian Copula(GC)を、合成の飛行情報を生成するように適応し、統計的類似性、忠実度(フィデリティ)、多様性、および予測における有用性を保持する能力に基づいて比較する。 結果は、GCがより高い統計的類似性と忠実度を達成する一方で、その計算コストが大規模データセットへの適用を妨げることを示している。 対照的に、TVAEは大規模データセットを効率的に扱い、スケーラブルな合成データ生成を可能にする。 本研究の結果は、合成データが、実データで学習したものと同等の精度で飛行遅延予測モデルを支えうることを示している。 これらの結果は、合成飛行データを活用して航空交通における予測モデリングを強化する道を切り開くものである。