R4-CGQA: コンピュータグラフィックス画像品質評価のための検索ベース視覚言語モデル
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ユーザー視点から六つのCG品質の知覚次元を特定し、それらの次元に対応する品質説明とともに3,500点のCG画像データセットを構築する。
- これらの説明に基づいてQAベンチマークを構築し、CG品質タスクにおける視覚言語モデル(VLM)を評価する。
- 現在のVLMは細かなCG品質判断に苦戦することを示す一方、視覚的に類似した画像の説明がモデルの理解を著しく向上させることができる。
- 検索を活用した生成を用いた二系統のリトリーバルフレームワークを提案し、複数の代表的モデルにおけるCG品質評価の性能を大幅に向上させる。
要旨:没入型のCGレンダリングは現代の日常生活で広く普及している。しかし、CG品質を包括的に評価することは二つの理由で難しい。第一に、既存のCGデータセットにはレンダリング品質の体系的な説明が欠けていること、第二に既存のCG品質評価手法は合理的なテキストベースの説明を提供できないことである。これらの問題に対処するため、まずユーザー視点からCG品質の六つの主要な知覚次元を特定し、それらの次元に沿った品質説明とともに3,500点のCG画像データセットを構築する。各説明は、選択した次元に沿ってCGのスタイル、内容、および知覚品質を網羅する。さらに、データセットの一部を用いて説明に基づくいくつかの質問-回答ベンチマークを構築し、既存の視覚言語モデル(VLM)の応答を評価する。現在のVLMは細かなCG品質を判断するには十分な精度を持っていないことが分かったが、視覚的に類似した画像の説明は、特定のCG画像に対するVLMの理解を大幅に向上させる可能性がある。これらの観察に動機づけられ、検索を活用した生成を採用し、VLMのCG品質評価能力を効果的に強化する二系統のリトリーバルフレームワークを提案する。いくつかの代表的なVLMでの実験により、本手法がCG品質評価における性能を大幅に向上させることを示している。
