概要: 限られたデータで大規模モデルを学習する際、過学習を避けることが最重要です。一般的なグリッドサーチやより賢い探索手法は、候補となる各ハイパーパラメータごとに高コストな別々の実行を必要としがちであり、さらに利用可能な学習データを減らす検証用データセットを切り出すことにもつながります。本論文では、ベイズ変分法におけるエビデンス下限(ELBO)目的関数から、勾配ベースでハイパーパラメータを学習する方法を研究します。これにより、検証用データセットは不要になります。我々は、柔軟性のためにモデルが過剰パラメータ化されている状況に焦点を当てます。また、計算可能性のため、近似事後分布を等方的な共分散を持つガウス分布として選びますが、真の事後分布を一致させることはできません。このような状況では、ELBOが事前分布に合致する事後分布を優先するため、深刻なアンダーフィッティングが生じることを見出します。その代わりに、事前分布ではなく尤度に重み付けするデータ重視型ELBOを推奨します。画像およびテキスト分類器のベイズ転移学習において、本手法は過去の研究における88時間超のグリッドサーチを3時間未満に削減しつつ、同等の精度を達成します。さらに、本アプローチが学習可能な長さスケールのカーネルを伴うガウス過程の効率的かつ正確な近似を可能にすることを示します。
データを強調した変分目的関数によるハイパーパラメータの学習
arXiv stat.ML / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ELBO目的関数を最適化する勾配ベースのベイズ変分アプローチによってモデルのハイパーパラメータを学習する手法を提案する。
- 標準的なELBO最適化は、データが限られ、パラメータ数が多い(過パラメータ化された)設定では、近似事後分布が事前分布に似るように押し付けられてしまうため、アンダーフィットにつながり得ると主張する。
- これに対処するため、著者らは「データを強調したELBO」を導入し、事前分布に対して尤度の重みを増やす。
- 画像およびテキスト分類器に対するベイズ転移学習の実験では、報告によれば88時間超のグリッドサーチを3時間未満に削減しつつ、同等の精度を維持している。
- さらに、この手法は学習可能な長さスケールのカーネルを用いることで、ガウス過程の効率的で正確な近似を可能にすることが示されている。


