ATHENA: テスト時の適応的ステアリングによる拡散モデルのオブジェクト数忠実度向上

arXiv cs.CV / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ATHENAは、再訓練やモデルアーキテクチャの変更を必要とせず、テキストから画像への拡散モデルにおけるオブジェクト数の忠実度を向上させるモデル非依存のテスト時適応ステアリングフレームワークを提案する。
  • サンプリング中の中間表現を活用してカウントを推定し、デノイズの初期段階でカウントを意識したノイズ補正を適用して、構造的エラーが修正困難になる前に生成の軌道を誘導する。
  • 静的なプロンプトベースのステアリングから、動的に調整されるカウント対応の制御まで含む3つの派生手法を提示し、計算量とより高い数値精度のバランスを取る。
  • 標準ベンチマークと新規データセットでの実験は、特に高いターゲットカウントでカウント忠実度の改善を示し、複数の拡散バックボーンにおいて精度と実行時間の有利なトレードオフを維持する。

要旨: テキストから画像への拡散モデルは高い視覚的忠実度を達成しますが、プロンプトが明示的なオブジェクト数を指定すると、数値制御において予想外にも体系的な失敗を示します。 この制限に対処するため、モデルに依存しないテスト時適応ステアリングフレームワークATHENAを導入します。これにより、モデルアーキテクチャを変更したり再訓練を必要とせずに、オブジェクト数の忠実度を向上させます。 ATHENAはサンプリング中の中間表現を活用してオブジェクト数を推定し、デノイジング過程の早い段階でカウントに応じたノイズ補正を適用して、生成の軌道を構造的な誤差が修正が難しくなる前に誘導します。3つの段階的に高度なATHENAの変種を提示します。これらは、静的なプロンプトベースのステアリングから、動的に調整されるカウント対応制御へと展開し、追加の計算と引き換えに数値的精度を向上させます。確立されたベンチマークと、新しく視覚的・意味論的に複雑なデータセットでの実験は、ATHENAが一貫してオブジェクト数の忠実度を改善し、特に高いターゲット数において顕著であることを示しています。一方、複数の拡散バックボーンにわたって、精度と実行時間の有利なトレードオフを維持しています。