RefReward-SR: 嗜好に整合した超解像のためのLR条件付き報酬モデリング
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- RefReward-SRは、既存のSR評価指標と人間の知覚的嗜好との間に生じる不整合に対処する、嗜好に整合した超解像のためのLR条件付き報酬モデルとして提案される。
- 真値による教師あり学習や参照なし(no-reference)指標を用いる代わりに、RefReward-SRは、LR入力を(セマンティックなアンカーとして)条件付けて候補となるHR再構成をスコアリングし、意味的な整合性と知覚的なもっともらしさをより反映することを目指す。
- このアプローチでは、マルチモーダル大規模言語モデル(MLLM)から得られる視覚-言語の事前知識を活用し、LR条件付けに対するHR出力の推論を踏まえた評価(reasoning-aware evaluation)を行う。
- この学習パラダイムを可能にするため、著者らはRefSR-18Kを構築する。これはSRにおける初の大規模なLR条件付き嗜好データセットであり、LR–HRの整合性とHRの自然さに基づくペア間ランキングを提供する。
- 手法では、MLLMをGroup Relative Policy Optimization(GRPO)で微調整し、LR条件付きのランキング報酬を用いる。そして、RefReward-SRを中核となる報酬信号としてSRモデル学習にGRPOを組み込み、人間の判断との整合性が向上する結果を得る;コード/モデル/データは採択後に公開予定である。