エネルギーベースモデル
この記事では、EBM(エネルギーベースモデル)を多層パーセプトロン(MLP)と比較し、未だ残る疑問に答えます。すなわち、EBMは勾配降下法による伝統的なMLPの「単なる同値な書き換え」に過ぎないのか、という点です。同じ学習データで、同じパラメータ数を与えたとき、EBMは勾配降下法で訓練した伝統的なMLPが到達する結果に、単に収束するだけなのでしょうか?
結論はノーです。EBMは、MLPと最も鋭く異なる点として、学習データに含まれていた点の境界付近にあるOOD点(分布外データ点)をどう分類するかが挙げられます。以下に、この違いを最もよく示すいくつかの図を示します。
エネルギーベースモデル(EBM)は、各変数の配置に対してスカラーのエネルギー(適合性の尺度)を割り当てることで、依存関係を捉えます。推論、つまり予測や意思決定は、観測された変数の値を設定し、残りの変数のうちエネルギーを最小にする値を見つけることから成ります。学習は、正しい残りの変数の値には低いエネルギーを、誤った値には高いエネルギーを割り当てるエネルギー関数を見つけることから成ります。
スパンドレル
2次元において、IIDサンプリングで3つの関数を訓練した
分割された円(ノイズなし)
ツイスト(ノイズなし)
接吻するピラミッド(ノイズあり)
次に、同じ大きさのReLU-MLPと同じ大きさのEBMの両方を、同じデータで訓練しました。その後、競合する両モデルを、訓練データの周囲の非常に密な箱の中で、非常に密にクエリしました。このクエリにより、各点に対して密度スカラーが得られ、それらをプロットし、色分けしました。
茶色と白は、モデルがそのクエリ点は真の分布に属さないと考えていることを示します。
青と緑は、モデルがそのクエリ点は、訓練セットの背後にある真の分布の一部である可能性が非常に高いと考えていることを示します。
以下の図は、密なクエリの結果を示しており、(a)(b)および(c)は、それぞれ split circle、twist、kissing pyramids に対してEBMへのクエリがどう振る舞うかを示しています。(d)、(e)、および(f)は、ReLU-MLPへのクエリ結果です。
https://i.imgur.com/J15lquv.png
ここでまず目につくのは、OOD領域における「スパンドレル」の多さです。これは、EBMの振る舞いにおいてこれらの「スパンドレル」が完全に欠けていることと、はっきり対照的です。
では、OOD領域におけるこれらの スパンドレル とは何なのでしょうか? それは、ReLU-MLPの重要な弱点から生じるアーティファクトです。MLPはしばしば、訓練データの領域の端に最も近い、モデルの区分線形部分について、区分線形の外挿を行います。このスパンドレルの形成は、分布に(本当の)不連続がある場合に最も強くなります。私たちは、MLPが「サンプリングしている分布は連続であるはずだ」という、自然で内在的な仮定を持っていることを見つけました。たとえそれが連続でない場合でもです。あるいはさらに悪いことに、「分布は線形であるはずだ」という仮定さえ持つのです。これは、接吻するピラミッドが例として使われた理由です。
一方でEBMは、そうした仮定をしません。
不連続な分布
次に、サンプリングした分布が連続性を示唆しているのに、その連続性そのものが偶然学習中にサンプリングされなかった場合、EBMをどこまで押し広げられるかを見てみたいと思います。そのために、区分線形関数から作られたサンプリング済みの訓練セットを用意します。キンク(折れ曲がり)の近くで関数同士は合流しますが、肝心のキンクはサンプリングされていません。上と同じ手順を、競合するEBMとReLU-MLPの両方に対して繰り返しました。得られた挙動は、以下の図に示されています。
ReLU-MLPは、疑われていた弱い挙動を示します。キンクからのデータがまったくない場合、そこに値を置いてしまい、そのやり方が不審なほど線形です。一方でEBMは、この魔法のトリックに動じません。そのような谷あい(valley)に学習サンプルが存在しない場合、EBMは、その領域には実際にはデータがないのだと、基底となる関数を解釈します。
https://i.imgur.com/l7HFrb6.png
一般に、私たちはEBMが本当に別種の学習手法であることを見出します。EBMモデルは、他のすべてのハイパーパラメータを維持していても、異なる予測を行います。訓練サンプル点に非常に近い領域や、(本当の)不連続をもつ分布では、こうした他の学習手法との差が最も強く現れます。
続きを読む
[link] [comments]