視覚生成における表現フレシェ距離損失(Representation Fréchet Loss)

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

要点

  • 本論文は、これまで訓練目的として不向きと見なされてきたフレシェ距離(FD)を、母集団推定は大きく取りつつ勾配計算は小さなバッチで行うことで最適化できると主張しています。
  • 「FD-loss」を提案し、表現空間を変えてもFD-lossで学習した生成器の視覚品質が一貫して向上することを示しており、特にInception特徴空間で良好な結果が報告されています。
  • この手法により、蒸留(teacher distillation)や敵対的学習、個別サンプルに基づく目標なしに、多段生成器を強力な一段生成器へと転用できることが示されます。
  • Inception FIDは視覚品質を正しく順位付けできない場合があるという発見があり、複数表現空間に基づく評価指標「FDr^k」が動機づけられています。
  • 総じて、本研究は分布間距離を複数の表現空間で、訓練目的および評価指標の両方として活用するさらなる探究を促しています。

要旨: 我々は、学習目的としては実用的でないと長らく考えられてきたフレシェ距離(Fr\'echet Distance: FD)が、実際には表現空間において効果的に最適化できることを示します。我々の考えは単純です。FD推定のための母集団サイズ(例: 50k)を、勾配計算のためのバッチサイズ(例: 1024)から切り離します。このアプローチをFD-lossと呼びます。FD-lossを最適化すると、いくつかの驚くべき発見が明らかになります。第一に、異なる表現空間でFD-lossを用いてベース生成器を事後学習すると、視覚的品質が一貫して向上します。Inception特徴空間では、1ステップの生成器がImageNetの256x256で0.72のFIDを達成します。第二に、同じFD-lossによって、多段(multi-step)の生成器が、教師蒸留(teacher distillation)や敵対的学習(adversarial training)、サンプルごとの目標(per-sample targets)なしで、強力な1ステップ生成器へと作り替えられます。第三に、FIDは視覚品質を誤ってランキングし得ます。より現代的な表現では、Inception FIDが悪くても、より良いサンプルが得られることがあります。これにより、複数表現の指標であるFDr^kが動機づけられます。我々は、本研究が生成モデルの学習目的および評価指標の両方として、多様な表現空間における分布距離のさらなる探究を促すことを期待します。