AI Navigate

アップデートアップデート最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

コンテキストとピクセルを意識した大規模言語モデルによる動画品質評価

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、ピクセル中心の手法や判別モデル中心の限界を超えるための、コンテキストとピクセルを意識したマルチモーダルLLM「CP-LLM」を提案している。
CP-LLMは2つの専用ビジョンエンコーダを用いて、高レベルの動画文脈と低レベルのピクセル歪みをそれぞれ別に捉え、その上で言語デコーダが両者の相互関係を推論する。
品質スコアリングと品質記述を別々のタスクとして扱うのではなく、同時に生成できることを狙っている。
実験では動画品質評価ベンチマークにおいてデータセット横断で最先端の性能を達成し、圧縮アーティファクトなどのピクセルレベルの歪みに対する感度と頑健性が向上していることが示された。

関連記事

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

Dev.to

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

Dev.to

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

Claudeが法廷でハルシネーションを起こすとどうなるか：Latham＆Watkinsの事案と弁護士の責任の意味

MarkTechPost

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告