オッカムの剃刀はELBOほど鋭くない

arXiv cs.LG / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、周辺尤度（“evidence”）を、過学習を防ぐモデル選択を可能にするオッカムの剃刀の数学的な表現として位置づけています。
ELBOベースの目的でハイパーパラメータ学習を行うと、近似事後分布についての仮定（とりわけガウス近似における共分散の階数）によって、過不足のない学習だけでなく過学習も起こり得ることを示します。
過パラメータ化された回帰モデルの実験的設定では、証拠（evidence）によるベイズ的なモデル選択が、ELBOでは選ばれないにもかかわらず“過学習”側のモデルを選ぶ場合があることを明らかにします。
著者らは、大規模モデルへのスケールを目指す実務者に対し、変分推論のための低階数・計算可能性（tractability）の仮定がモデル選択の信頼性を歪めうる点に注意を促しています。

要旨: 周辺尤度（evidence）と呼ばれるものは、オッカムの剃刀を数学的に体現したものとみなされ、過学習を避けるモデル選択を可能にします。変分推論から得られるエビデンス下限（ELBO）の目的関数も、同様の目的のために用いられてきました。先行研究では、平均場近似によって近似事後分布の族を制限すると、ELBOがアンダーフィットを引き起こしうることが示されています。本論文では、単純な過パラメータ化回帰モデルにおけるELBOに基づくハイパーパラメータ学習が、ガウス近似事後分布において仮定する共分散行列の階数に応じて、過学習も生みうることを示します。驚くべきことに、アンダーフィットと過学習の2つの選択肢の間で、エビデンスそのものによるベイズ的モデル選択は、場合によっては過学習版を好むことがある一方、ELBOはそうではありません。大規模モデルへのスケールを期待するベイズ実務者は、計算可能性のために必要となる低階数仮定が、モデル選択の可能性にどのような影響を与えうるのかに注意すべきです。