要旨: 近年のマルチモーダル大規模言語モデル(MLLM)は、動画品質評価(VQA)タスクにおいて有望な性能を示している。しかしながら、これらを新しいシナリオへ適応させることは、大規模な再学習や高コストな平均オピニオン得点(MOS)アノテーションが必要となるため依然として高価である。本論文では、事前学習済みのMLLMはすでにVQAに対して有用な知覚的事前(perceptual prior)を提供しており、主な課題は、この事前をターゲットのMOS空間へ効率的に校正(calibrate)することにある、という点を主張する。この洞察に基づき、本論文では動画品質評価のための知覚と校正の分離フレームワークであるDPC-VQAを提案する。具体的に、DPC-VQAは凍結したMLLMを用いて基礎となる品質推定と知覚的事前を提供し、軽量な校正ブランチを用いてターゲット・シナリオ適応のための残差補正を予測する。この設計により、高コストなエンドツーエンドの再学習を回避しつつ、低い学習コストとデータコストで信頼性の高い性能を維持できる。ユーザー生成コンテンツ(UGC)およびAI生成コンテンツ(AIGC)のベンチマークの双方に対する大規模な実験により、DPC-VQAは代表的なベースラインに対して競争力のある性能を達成し、さらに従来のMLLMベースのVQA手法で学習可能なパラメータの2%未満を用いるだけで、MOSラベルのみ20%でも有効であることが示される。コードは出版時に公開される。
DPC-VQA:ビデオ品質評価における品質知覚と残差キャリブレーションの分離
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、事前学習済みのマルチモーダルLLMがビデオ品質評価に対する強力な知覚的事前知識を提供する一方で、主要な課題は出力を目標MOS空間に効率よくキャリブレーションすることである、と主張する。
- DPC-VQAは品質推定のための基盤MLLMを凍結し、軽量なキャリブレーション分岐を追加して残差補正を予測することで、高コストなエンドツーエンドの再学習を回避する。
- UGCおよびAIGCのビデオ品質評価ベンチマークでの実験により、従来手法と比較して競争力のある結果が得られ、学習可能パラメータは従来のMLLMベース手法で一般的な2%未満に抑えられる。
- 本手法は、MOSラベルが20%のみの場合でも有効であり、新しいシナリオに適応する際のアノテーション負担を軽減できる。
- 著者らは、出版時にコードを公開すると述べている。




