コンテキストとピクセルを意識した大規模言語モデルによる動画品質評価
arXiv cs.CV / 2026/5/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ピクセル中心の手法や判別モデル中心の限界を超えるための、コンテキストとピクセルを意識したマルチモーダルLLM「CP-LLM」を提案している。
- CP-LLMは2つの専用ビジョンエンコーダを用いて、高レベルの動画文脈と低レベルのピクセル歪みをそれぞれ別に捉え、その上で言語デコーダが両者の相互関係を推論する。
- 品質スコアリングと品質記述を別々のタスクとして扱うのではなく、同時に生成できることを狙っている。
- 実験では動画品質評価ベンチマークにおいてデータセット横断で最先端の性能を達成し、圧縮アーティファクトなどのピクセルレベルの歪みに対する感度と頑健性が向上していることが示された。



