Q-DeepSight：画像で思考を促し、画像の品質評価と改善をインセンティブ化する

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、画像品質評価（IQA）において、単なるスコア算出ではなく局所的で実行可能なフィードバックを提供するマルチモーダル「think-with-image」フレームワークQ-DeepSightを提案します。
Q-DeepSightは、インタリーブされたマルチモーダルChain-of-Thoughtに加えて、crop-and-zoomのようなツール補助による証拠収集を行い、品質がどこで低下しているかとその視覚的な理由を明示します。
強化学習で長いマルチモーダル推論を学習するために、報酬の疎な性質を緩和するPerceptual Curriculum Reward（PCR）と、視覚に根ざした推論に対するクレジット割り当てを改善するEvidence Gradient Filtering（EGF）を導入します。
自然画像・復元画像・AI生成画像を含む多様なベンチマークで最先端性能を示し、さらにPerceptual-in-Generation（PiG）として診断結果をもとに反復的に画像を改善する「学習なし」ループで実用価値も示します。

Abstract

画像品質評価（IQA）モデルは、生成モデルや画像修復を導くための知覚的な批評家（パーセプチュアル・クリティック）として、ますます実運用されるようになっています。この役割には、正確なスコアだけでなく、実行可能で局所化されたフィードバックが求められます。しかし、現在のMLLMベースの手法は、単一視点かつ言語のみのパラダイムを採用しており、人間が証拠を求めて判断するという行動から乖離しています。その結果、根拠が十分に裏付けられていない説明（ラショナール）になりやすく、イン・ザ・ループでの改良のための信頼性が制限されます。我々は、この人間に近いプロセスを模倣する think-with-image フレームワークである Q-DeepSight を提案します。Q-DeepSight は、ツールによる証拠獲得（例：切り取り＆ズーム）を伴う形で、インタリーブ（交互に行う）された Multimodal Chain-of-Thought（iMCoT）を実行し、品質がどこで劣化しているのか、そしてなぜ劣化しているのかを明示的に特定します。強化学習を通じてこれらの長い iMCoT 軌跡を学習するために、2つの手法を導入します。報酬のスパースさを緩和するための Perceptual Curriculum Reward（PCR）と、視覚に根ざした推論に対するクレジット割り当てを改善するための Evidence Gradient Filtering（EGF）です。Q-DeepSight は、自然画像、修復画像、AI生成コンテンツを含む多様なベンチマークにおいて、最先端の性能を達成します。さらに、Perceptual-in-Generation（PiG）によってその実用的価値も示します。PiG は訓練不要のフレームワークであり、Q-DeepSight の診断が反復的な画像強調（イメージ・エンハンスメント）を導くことで、評価と改良のループを効果的に閉じます。