特異ベイズ型ニューラルネットワーク（Singular Bayesian Neural Networks）

arXiv stat.ML / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、標準的なベイズニューラルネットワークがしばしば過剰パラメータ化されていると主張し、平均場ガウス事後ではO(mn)のパラメータが必要でも、実際の重み構造が実質的に低ランクでよい場合が多いと述べています。
重み行列を W = AB^T で因子分解することで「特異」なベイズニューラルネットワークを提案し、事後分布をランクrのマニフォールド上に集中させることで、潜在因子の共有による重み相関を捉えます。
著者らはPAC-Bayesの一般化境界と損失境界を導出し、複雑度項が √(r(m+n)) のように √(mn) より小さいスケーリングになることを示し、誤差を最適化誤差とランクに起因するバイアスに分解します。
さらに低ランクの決定論的ネットワークに関するガウス複雑度の結果を、ベイズの予測平均に適応します。
実験では、MLP・LSTM・Transformerで、5メンバーのDeep Ensemblesに対して最大33倍少ないパラメータ数でも競争力のある予測性能を達成し、OOD検出や較正が平均場や摂動ベースラインより改善することが示されます（ただし学習内の尤度指標ではDeep Ensemblesが強い場合もある）。

要約: ベイズニューラルネットワークは較正された不確実性を約束しますが、標準的な平均場ガウス事後分布では $O(mn)$ 個のパラメータが必要になります。私たちは、このコストはしばしば不要であり、特に重み行列が速い特異値減衰を示す場合に当てはまると主張します。重みを $W = AB^{\top}$ としてパラメータ化し、 $A \in \mathbb{R}^{m \times r}$ 、 $B \in \mathbb{R}^{n \times r}$ とすると、レベーグ測度に関して
\emph{特異} な事後分布が誘導され、ランク- $r$ の多様体に集中します。この特異性は、共有された潜在因子を通じて重みの相関の構造を捉えるものであり、平均場の独立性という仮定とは幾何学的に異なります。私たちは、複雑性項が $\sqrt{mn}$ ではなく $\sqrt{r(m+n)}$ のスケールになる PAC-Bayes 汎化境界を導出し、さらに Eckart-Young-Mirsky の定理を用いて、誤差を最適化誤差とランクに起因するバイアスに分解する損失境界を証明します。さらに、低ランク決定論ネットワークのための最近のガウス複雑性境界を、ベイズ予測平均に適応します。実験的には、MLP、LSTM、Transformer を標準ベンチマークにわたって評価したところ、提案手法は 5 メンバー Deep Ensembles と比べて最大 $33\times$ 少ないパラメータしか使用しないにもかかわらず、競争力のある予測性能を達成しました。提案手法は、OOD（分布外）検出を大幅に改善し、平均場や摂動ベースラインに比べて較正をしばしば向上させます。一方で、in-distribution（分布内）の尤度ベースの指標では、Deep Ensembles のほうが依然として強い可能性があります。