概要: 推論誘導型の画像品質評価(IQA)における近年の進展は、強化学習によるランキング(RL2R)を活用して、知覚品質を評価するための視覚言語モデル(VLM)を訓練できる力を示してきました。しかし、既存の手法は単一の粒度で動作し、全体の品質スコアのみを予測する一方で、人間の品質知覚が持つ多次元性——すなわち、シャープネス、色の忠実度、ノイズレベル、構図の美的評価といった属性を含む——を見落としています。本論文では、MG-IQA(Multi-Granularity IQA:多粒度IQA)を提案します。これは、推論の多粒度化を行う枠組みであり、RL2Rを拡張して、単一の推論パス内で全体の画像品質と、きめ細かな品質属性を同時に評価します。提案手法は、3つの主要な革新を導入します:(1)属性を意識したプロンプト戦略により、VLMから構造化された多属性の推論を引き出すこと;(2)属性ごとの忠実度に対する報酬を算出する、群相対ポリシー最適化のための、多次元サーストン報酬モデル;(3)知覚スケールの再整列なしに、合成歪み、実歪み、AI生成画像データセット間で安定した共同学習を可能にするクロスドメイン整合メカニズムです。8つのIQAベンチマークに対する大規模な実験により、MG-IQAが、全体品質予測において(平均SRCC改善2.1\%)および属性レベル評価の両方で、最先端手法を一貫して上回ることが示されます。さらに、人間に整合した解釈可能な品質記述を生成します。
属性を意識した強化学習によるランキングのための画像品質評価におけるマルチグラニュラリティ推論
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 従来のRL2Rベースの画像品質評価は全体スコア中心で、シャープネスや色忠実度、ノイズ量、構図美などの複数属性を同時に扱えていない点を問題提起しています。
- 提案手法MG-IQAは、単一推論パスで「全体品質」と「細かな品質属性」を同時に推定するマルチグラニュラリティの推論フレームワークです。
- 属性に応じた構造化推論を引き出すattribute-aware prompting、属性ごとの報酬を扱う多次元Thurstone報酬モデル、そして合成歪み・実歪み・AI生成画像間での安定学習のためのcross-domain alignmentを導入しています。
- 8つのIQAベンチマークで、既存SOTAを全体予測と属性レベルの両面で上回り、全体品質予測ではSRCCが平均2.1%改善し、人間に整合した解釈可能な品質記述も生成できると報告されています。




