要旨: エネルギーベースモデル(EBM)は、柔軟なクラスの深層生成モデルであり、多モーダルデータにおける複雑な依存関係を捉えるのに適しています。しかし、最大尤度によって多モーダルEBMを学習するには、結合データ空間においてマルコフ連鎖モンテカルロ(MCMC)サンプリングが必要であり、ノイズで初期化したランジュバン動力学はしばしば混合が不十分で、モーダル間の首尾一貫した関係を発見できません。多モーダルVAEは、共有潜在ジェネレータと結合推論モデルを導入することで、このようなモーダル間の依存関係の捉え方に進展をもたらしてきました。しかし、共有潜在ジェネレータと結合推論モデルはいずれも単峰性ガウス(またはラプラス)としてパラメータ化されており、多モーダルデータが誘起する複雑な構造を近似する能力を大きく制限しています。本研究では、多モーダルEBM、共有潜在ジェネレータ、および結合推論モデルの学習問題を検討します。データ空間と潜在空間の両方において、それらのMLE更新と対応するMCMC洗練(リファインメント)を効果的に織り交ぜる学習フレームワークを提案します。具体的には、ジェネレータはEBMサンプリングの強力な初期状態として機能する、首尾一貫した多モーダルサンプルを生成するように学習されます。一方、推論モデルは、ジェネレータの事後分布サンプリングのための有益な潜在初期化を与えるように学習されます。これら2つのモデルは補完的な役割を担い、有効なEBMサンプリングと学習を可能にし、現実的で首尾一貫した多モーダルEBMサンプルをもたらします。大規模な実験により、さまざまなベースラインと比較して、多モーダル合成の品質と首尾一貫性の両面で優れた性能が示されます。提案する多モーダル・フレームワークの有効性と拡張性を検証するため、各種の分析およびアブレーション研究も行います。
MCMCによる改良を通じたマルチモーダル変分オートエンコーダを用いたマルチモーダル・エネルギーベースモデルの学習
arXiv cs.LG / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、EBMの最尤学習で必要となるMCMCにおいて、データの結合空間でノイズ初期化ラングジュバン動力学がうまく混ざらず、モーダル間の関係を発見しにくい問題に対処する手法を提案する。
- マルチモーダルVAEとEBMを統合し、共有潜在生成器と共同推論モデルを、データ空間と潜在空間の両方でMCMCによるリファインメントを織り込んだ形の最尤更新として共同学習する。
- 生成器は、EBMサンプリングの強い初期状態となるような、モーダル間で首尾一貫したマルチモーダル生成サンプルを出せるように学習される。
- 推論モデルは、生成器の事後分布からのサンプリングに向けた潜在初期化を有益なものにするよう学習され、潜在空間での探索を改善する。
- 実験結果とアブレーション/分析により、複数のベースラインに比べてマルチモーダル合成の品質と首尾一貫性が向上し、提案フレームワークのスケーラビリティも示される。
