MCLR：クラス間尤度比最大化による視覚生成モデルにおける条件付きモデリングの改善と、クラス分類器なしガイダンス（CFG）とアラインメント目的の同値性の確立

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、拡散モデルがしばしば（理論的にはデータ分布を対象としている）学習時のデノイズスコアマッチング（DSM）にもかかわらず、推論時のヒューリスティックであるクラス分類器なしガイダンス（CFG）を必要とするのはなぜかを調査する。

Abstract

拡散モデルは生成モデリングにおいて最先端の性能を達成しているが、その成功はしばしば、推論時ヒューリスティックであるクラス分類器フリーガイダンス（CFG）に大きく依存している。CFGは、サンプリング軌道を変更するものである。理論的な観点からは、標準的なノイズ除去スコアマッチング（DSM）で学習した拡散モデルは、目標のデータ分布を回復できると期待される。そこで実務上なぜ推論時ガイダンスが必要なのかが問題となる。本研究では、DSM学習目的を原理に基づく方法で修正できるかどうかを問い、推論時ガイダンスなしで標準の逆時間サンプリングを行っても、CFGと同等の効果が得られるのかを検討する。標準的な拡散モデルにおける主要な制約として、クラス間の十分な分離が欠けていることを特定する。これに対処するため、訓練中にクラス間の尤度比を明示的に最大化する、原理に基づくアライメント目的であるMCLRを提案する。MCLRで微調整されたモデルは、標準サンプリングの下でCFG様の改善を示し、推論時ガイダンスを必要とせずに、同等の定性的および定量的な向上を達成する。実証的な利点に加えて、CFGで導かれるスコアが加重MCLR目的の厳密な最適解であることを示す理論的結果を提示する。これにより、クラス分類器フリーガイダンスとアライメントベースの目的との間の形式的な等価性が確立され、CFGの機構的な解釈が与えられる。