Q-DeepSight:画像で思考を促し、画像の品質評価と改善をインセンティブ化する
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、画像品質評価(IQA)において、単なるスコア算出ではなく局所的で実行可能なフィードバックを提供するマルチモーダル「think-with-image」フレームワークQ-DeepSightを提案します。
- Q-DeepSightは、インタリーブされたマルチモーダルChain-of-Thoughtに加えて、crop-and-zoomのようなツール補助による証拠収集を行い、品質がどこで低下しているかとその視覚的な理由を明示します。
- 強化学習で長いマルチモーダル推論を学習するために、報酬の疎な性質を緩和するPerceptual Curriculum Reward(PCR)と、視覚に根ざした推論に対するクレジット割り当てを改善するEvidence Gradient Filtering(EGF)を導入します。
- 自然画像・復元画像・AI生成画像を含む多様なベンチマークで最先端性能を示し、さらにPerceptual-in-Generation(PiG)として診断結果をもとに反復的に画像を改善する「学習なし」ループで実用価値も示します。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA