要旨: 合成データ生成は、教育テクノロジーにおけるデータ不足やプライバシー上の懸念に対処する可能性を秘めている一方で、実務者には、従来のリサンプリング手法と現代の深層学習アプローチの選択に関する経験的な指針が欠けています。本研究は、10,000件の学生パフォーマンスデータセットを用いて、これらのパラダイムを比較する最初の体系的ベンチマークを提示します。分布の忠実性(Kolmogorov-Smirnov距離、Jensen-Shannonダイバージェンス)や、学習機械としての有用性(Train-on-Synthetic-Test-on-Realスコア:TSTR)、プライバシー保護(Closest Record までの距離:Distance to Closest Record)といった複数の次元にわたり、3つのリサンプリング手法(SMOTE、Bootstrap、ランダム・オーバーサンプリング)を3つの深層学習モデル(オートエンコーダ、変分オートエンコーダ、Copula-GAN)と比較します。その結果、根本的なトレードオフが明らかになりました。リサンプリング手法は、ほぼ完璧な有用性を達成する一方(TSTR: 0.997)、プライバシー保護にはまったく機能せず(DCR ~ 0.00)、深層学習モデルは大きな有用性コストと引き換えに強力なプライバシー保証を提供します(DCR ~ 1.00)。変分オートエンコーダは最適な妥協として現れ、83.3%の予測性能を維持しつつ、完全なプライバシー保護を実現します。さらに、実行可能な提言も示します。プライバシーを管理できる内部開発には従来のリサンプリングを用い、プライバシーが最優先となる外部へのデータ共有にはVAEを用います。本研究は、学習分析における合成データ生成のための基礎となるベンチマークと実務的な意思決定フレームワークを確立します。
教育における合成データ:従来のリサンプリングと深層生成モデルに関する実証的洞察
arXiv cs.LG / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、SMOTE・Bootstrap・Random Oversamplingといった従来のリサンプリング手法と、Autoencoder・Variational Autoencoder・Copula-GANのような深層生成モデルを、学生の成績データを対象にベンチマーク比較しています。
- 分布の再現性や下流の機械学習有用性を、KS距離・Jensen-Shannonダイバージェンス・Train-on-Synthetic/Test-on-Real(TSTR)などの指標で評価しています。
- プライバシー保護は「最も近い記録までの距離(DCR)」で測定し、リサンプリングは高いユーティリティ(TSTR ≈ 0.997)を得る一方でプライバシーをほぼ守れない(DCR ≈ 0.00)ことが示されています。
- 深層生成モデルは特にVAEを中心に強力なプライバシー保護(DCR ≈ 1.00)を実現するものの、有用性の低下という代償があることが明らかになります。
- 実務向けには、社内開発でプライバシーを管理できる場合は従来のリサンプリングを、外部共有でプライバシーが最重要の場合はVAEを使うとする意思決定指針を提示しています。



