ACPO：アンカー制約付き知覚最適化による、ノーリファレンス品質ガイダンスを用いた拡散モデル

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ピクセル単位のフルリファレンス目的で学習されがちな拡散モデルが、主観的な視覚品質やテキストと画像の意味整合性で不十分になり得る点に取り組む。
著者らは、学習済みNR-IQAモデル（ノーリファレンス画像品質評価）を知覚ガイダンスとして用いて、ノーリファレンスの知覚品質を拡散学習へ組み込むことを提案する。
ただし、知覚信号をそのまま最適化すると学習不安定化や分布ドリフトが起きるため、安定化の課題があると指摘する。
そこで、アンカー制約付き最適化フレームワークを導入し、ノイズ予測の観点で基盤拡散モデルとの整合性を正則化して微調整を安定にする。
実験では、知覚品質の向上を達成しつつ生成多様性と学習安定性を維持できることが示され、元の生成挙動を損なわずに知覚的に好ましい出力へ制御的に適応できる可能性が示される。

Abstract

拡散モデルは画像生成において目覚ましい成功を収めている一方で、その学習は主として、正解画像に対するピクセル単位の類似性を強制するフルリファレンス目的によって駆動されています。この種の教師信号は忠実性に関して有効であるものの、主観的な視覚知覚の品質やテキスト‐画像の意味整合性という観点では不十分である可能性があります。本研究では、拡散学習においてノーリファレンスの知覚品質を取り込む問題を検討します。重要な課題は、ノーリファレンス画像品質評価（NR-IQA）モデルによって提供されるような知覚信号を直接最適化すると、元の拡散目的との間に不整合が生じ、その結果、微調整中に学習の不安定化や分布のドリフトが引き起こされることです。この問題に対処するため、安定した知覚適応を可能にするアンカー制約付き最適化フレームワークを提案します。具体的には、学習済みのNR-IQAモデルを知覚誘導信号として活用しつつ、ノイズ予測の観点でベースとなる拡散モデルとの整合性を強制するアンカーベースの正則化を導入します。この設計により、知覚品質の向上と生成の忠実性のバランスを効果的に取り、元の生成挙動を損なうことなく、知覚的に好ましい出力へ向けた制御された適応を可能にします。大規模な実験の結果、提案手法は生成の多様性と学習の安定性を維持しながら、知覚品質を一貫して改善できることが示されました。これにより、拡散モデルに対するアンカー制約付き知覚最適化の有効性が明らかになりました。