AI Navigate

拡散モデルの幾何学的オートエンコーダ

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 幾何学的オートエンコーダ(GAE)は、意味的識別性、再構成忠実度、潜在の圧縮性を同時に改善することで、潜在拡散モデルの性能を向上させることを目的として導入されました。
  • GAEはVision Foundation Modelの事前情報から最適化された低次元の意味的監督ターゲットを構築し、それを介してオートエンコーダをガイドし、潜在表現を意味のあるセマンティクスと整合させます。
  • 潜在正規化は標準的なVAEのKLダイバージェンスを置換し、拡散学習向けに特化したより安定した潜在多様体を実現します。
  • 高強度ノイズ下での堅牢な再構成を実現するため、動的ノイズサンプリング機構を組み込んでいます。
  • ImageNet-1K (256×256) での経験的結果は、80エポックで gFID 1.82、800エポックで 1.31 を示し、Classifier-Free Guidanceなし。コードとモデルは関連 GitHub リポジトリで公開されています: https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models
要旨:潜在拡散モデルは高解像度の視覚生成において新しい最先端を確立しています。Vision Foundation Modelの事前情報を統合することで生成効率は向上しますが、既存の潜在設計は依然として実用的なヒューリスティックに頼ることが多いです。これらのアプローチは意味的識別性、再構成忠実度、潜在のコンパクト性を統合することにしばしば苦労します。本論文では、幾何学的オートエンコーダ(GAE)を提案します。これはこれらの課題を体系的に対処する原理的なフレームワークです。さまざまな整合性パラダイムを分析することにより、GAEはVFMsから最適化された低次元の意味的監督ターゲットを構築し、オートエンコーダへの指針を提供します。さらに、標準的なVAEの制約であるKL発散を置換する潜在正規化を活用し、拡散学習に特化してより安定した潜在多様体を実現します。高強度ノイズ下での堅牢な再構成を確保するため、GAEは動的ノイズサンプリング機構を組み込んでいます。実証的には、GAEはImageNet-1K 256×256ベンチマークで説得力のある性能を達成し、80エポックでgFID 1.82、800エポックで1.31を達成しており、Classifier-Free Guidanceなしで既存の最先端手法を大幅に上回っています。生成品質を超えて、GAEは圧縮、意味的深さ、および堅牢な再構成の安定性の間に優れた均衡を確立します。これらの結果は私たちの設計上の配慮を検証し、潜在拡散モデリングの有望なパラダイムを提示します。コードとモデルは以下のGitHubリポジトリで公開されています: https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models