広告

知覚的なビデオ・フルーエンシー評価の先駆け:新しいタスク、ベンチマーク・データセット、そしてベースライン

arXiv cs.CV / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のビデオ品質評価(VQA)手法は「ビデオ・フルーエンシー」を十分に捉えられていないことが多いと主張し、時間的知覚タスクとして独立したVideo Fluency Assessment(VFA)を新たに設けることを動機づけている。
  • フルーエンシーに焦点を当てた新しいベンチマーク・データセットFluVidを導入する。FluVidは、4,606本のin-the-wild動画を含み、フルーエンシー分布がバランスされており、さらに人手による研究に基づく新たなスコアリング基準を備えている。
  • FluVidにおける進展を評価し、VFA固有のモデル設計上の選択に役立てるため、23手法にわたる大規模なベンチマークを提示する。
  • 著者らは、時間的パーマテッド自己注意(T-PSA)を用いたベースラインモデルFluNetを提案する。これにより、フルーエンシーに関連する手がかりの符号化を改善し、長距離フレーム間の相互作用をより良く行えるようにする。
  • 結果として、提案ベンチマークにおける最先端の性能を示すとともに、VFAのさらなる探索に向けた研究ロードマップを提供している。

Abstract

動画の流暢性、例えばモーションの一貫性やフレームの連続性に関する人間の主観的フィードバックを正確に推定することは、ストリーミングやゲームなどさまざまな用途にとって重要です。しかし従来は、この問題が長い間見過ごされてきました。というのも先行研究は、動画品質評価(VQA)タスクにおいて全体的な品質の下位次元として扱うことで、単にそれを解決しようとしてきたからです。本研究では予備実験を行い、現行のVQA予測が流暢性を大きく過小評価していることを明らかにします。これにより、その適用可能性が制限されます。そこで本研究は、時間的な次元に焦点を当てたスタンドアロンの知覚タスクとして、Video Fluency Assessment(VFA)を先駆的に提案します。VFA研究を推進するために、1)流暢性志向のデータセットであるFluVidを構築します。FluVidは、流暢性の分布がバランスした実環境(in-the-wild)動画4,606本からなり、VFAに対する初の採点基準および人間による研究を含みます。2)FluVid上でこれまでで最も包括的な、23手法からなる大規模ベンチマークを開発し、VFAに最適化したモデル設計のための知見を収集します。3)入力の流暢性情報を強化し、フレーム間の長距離相互作用を高めるために、時間的に順列化された自己注意(T-PSA)を用いるベースラインモデルFluNetを提案します。本研究は、最先端の性能を達成するだけでなく、より重要には、VFAのための解決策を探究するためのロードマップをコミュニティに提供します。

広告