二つの分散の物語:単一シードのベンチマークがベイズ深層学習で失敗する場合

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • 少量データのベイズ深層学習では、CRPSのような評価指標の「単一シードの端点値」を安定した性質として報告することが誤解を招き得ます。端点値自体がランダム変数だからです。
  • 6つの回帰データセットで独立に50回再実行した結果、CRPSの分散推移は手法ごとに大きく異なり、MAPとDeep Ensemblesは中間の学習サイズで再現可能な分散ピークを示し得ます。一方でMC DropoutやBayes by Backpropは分散が滑らかに縮小する傾向があります。
  • これらの分散ピークは信頼性に直接影響し、例としてSeoul Bikeでは、単一シードのMAP推定の相対RMSEが93.6%に達し、反復実行平均の±10%以内に入る確率は5.9%まで低下しました。
  • ローカルなCRPS分散は単一シード推定誤差の強い指標となり、実データセットすべてでSpearman相関が0.96超となります。また、学習目的関数をヘテロスケダス目的からβ-NLLに置き換えると、分散の不規則性が大きく低減します。