属性を意識した強化学習によるランキングのための画像品質評価におけるマルチグラニュラリティ推論

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

従来のRL2Rベースの画像品質評価は全体スコア中心で、シャープネスや色忠実度、ノイズ量、構図美などの複数属性を同時に扱えていない点を問題提起しています。
提案手法MG-IQAは、単一推論パスで「全体品質」と「細かな品質属性」を同時に推定するマルチグラニュラリティの推論フレームワークです。
属性に応じた構造化推論を引き出すattribute-aware prompting、属性ごとの報酬を扱う多次元Thurstone報酬モデル、そして合成歪み・実歪み・AI生成画像間での安定学習のためのcross-domain alignmentを導入しています。
8つのIQAベンチマークで、既存SOTAを全体予測と属性レベルの両面で上回り、全体品質予測ではSRCCが平均2.1%改善し、人間に整合した解釈可能な品質記述も生成できると報告されています。

概要: 推論誘導型の画像品質評価（IQA）における近年の進展は、強化学習によるランキング（RL2R）を活用して、知覚品質を評価するための視覚言語モデル（VLM）を訓練できる力を示してきました。しかし、既存の手法は単一の粒度で動作し、全体の品質スコアのみを予測する一方で、人間の品質知覚が持つ多次元性——すなわち、シャープネス、色の忠実度、ノイズレベル、構図の美的評価といった属性を含む——を見落としています。本論文では、MG-IQA（Multi-Granularity IQA：多粒度IQA）を提案します。これは、推論の多粒度化を行う枠組みであり、RL2Rを拡張して、単一の推論パス内で全体の画像品質と、きめ細かな品質属性を同時に評価します。提案手法は、3つの主要な革新を導入します：（1）属性を意識したプロンプト戦略により、VLMから構造化された多属性の推論を引き出すこと；（2）属性ごとの忠実度に対する報酬を算出する、群相対ポリシー最適化のための、多次元サーストン報酬モデル；（3）知覚スケールの再整列なしに、合成歪み、実歪み、AI生成画像データセット間で安定した共同学習を可能にするクロスドメイン整合メカニズムです。8つのIQAベンチマークに対する大規模な実験により、MG-IQAが、全体品質予測において（平均SRCC改善2.1\%）および属性レベル評価の両方で、最先端手法を一貫して上回ることが示されます。さらに、人間に整合した解釈可能な品質記述を生成します。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

属性を意識した強化学習によるランキングのための画像品質評価におけるマルチグラニュラリティ推論

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵