RefReward-SR: 嗜好に整合した超解像のためのLR条件付き報酬モデリング

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • RefReward-SRは、既存のSR評価指標と人間の知覚的嗜好との間に生じる不整合に対処する、嗜好に整合した超解像のためのLR条件付き報酬モデルとして提案される。
  • 真値による教師あり学習や参照なし(no-reference)指標を用いる代わりに、RefReward-SRは、LR入力を(セマンティックなアンカーとして)条件付けて候補となるHR再構成をスコアリングし、意味的な整合性と知覚的なもっともらしさをより反映することを目指す。
  • このアプローチでは、マルチモーダル大規模言語モデル(MLLM)から得られる視覚-言語の事前知識を活用し、LR条件付けに対するHR出力の推論を踏まえた評価(reasoning-aware evaluation)を行う。
  • この学習パラダイムを可能にするため、著者らはRefSR-18Kを構築する。これはSRにおける初の大規模なLR条件付き嗜好データセットであり、LR–HRの整合性とHRの自然さに基づくペア間ランキングを提供する。
  • 手法では、MLLMをGroup Relative Policy Optimization(GRPO)で微調整し、LR条件付きのランキング報酬を用いる。そして、RefReward-SRを中核となる報酬信号としてSRモデル学習にGRPOを組み込み、人間の判断との整合性が向上する結果を得る;コード/モデル/データは採択後に公開予定である。

Abstract

生成的超解像(SR)の近年の進歩は視覚的なリアリズムを大きく向上させてきましたが、既存の評価・最適化の枠組みは人間の知覚と整合していないままです。フルリファレンス(Full-Reference)およびノーリファレンス(No-Reference)の指標は、しばしば知覚上の嗜好を反映できず、画素の位置ずれにより意味的に妥当な細部を不当に罰したり、視覚的にはシャープだが一貫性のないアーティファクトを好む結果になります。さらに、多くのSR手法はグラウンドトゥルース(GT)依存の分布整合に依存しており、それが必ずしも人間の判断と一致するとは限りません。本研究では、嗜好に整合したSRのための、低解像度(LR)参照対応報酬モデルであるRefReward-SRを提案します。GTによる教師あり信号やNR評価に依存するのではなく、RefReward-SRは、LR入力を意味的アンカーとして扱いながら、それに条件付けられた高解像度(HR)再構成物を評価します。マルチモーダル大規模言語モデル(MLLM)の視覚-言語的事前知識を活用し、推論を考慮した形で意味的整合性と妥当性を評価します。このパラダイムを支えるために、SRのための最初の大規模LR条件付き嗜好データセットであるRefSR-18Kを構築し、LR-HR整合性とHRの自然さに基づくペア単位のランキングを提供します。LR条件付きランキング報酬を用いて、Group Relative Policy Optimization(GRPO)によりMLLMを微調整し、さらにRefReward-SRを嗜好に整合した生成の中核となる報酬信号として、GRPOをSRモデルの学習へ統合します。大規模な実験の結果、提案フレームワークは人間の判断との整合性を大幅に高めることが示されました。意味的整合性を保持しつつ、知覚上の妥当性と視覚的自然さを強化した再構成を生成できます。コード、モデル、データセットは、論文の採択後に公開します。