AI Navigate

MDS-VQA: 動画品質評価のためのモデル情報に基づくデータ選択

arXiv cs.CV / 2026/3/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MDS-VQAは、基礎となるVQAモデルにとって難しく、かつ内容が多様な未ラベル動画を選別する、モデル情報に基づくデータ選択機構を提案します。
  • 難易度はランキング目的で訓練された失敗予測器によって推定され、多様性は深層意味論的な動画特徴を用いて測定され、制約されたラベリング予算の範囲で両者のバランスを取る貪欲法が用いられます。
  • 複数のVQAデータセットにおける実験は、5%のラベル付きサンプルだけを使用しても、有意な改善をもたらし、平均 SRCC を0.651から0.722へ向上させ、トップの gMAD ランクを達成します。
  • 本研究は、アクティブなファインチューニングにおけるデータ中心の選択の価値を示し、動画品質評価における適応と一般化を改善する実践的アプローチを強調します。
学習ベースの動画品質評価(VQA)は急速に進歩しているが、進展はモデル設計とデータセットのキュレーションの断絶によってますます制約されている。モデル中心のアプローチはしばしば固定ベンチマーク上で反復し、一方データ中心の取り組みは新しい人間ラベルを収集するが、既存のVQAモデルの弱点を体系的に狙い撃ちしていない。ここで我々は、基礎となるVQAモデルにとって難しく、かつ内容が多様な未ラベル動画をキュレーションするための、モデル情報に基づくデータ選択機構であるMDS-VQAを説明する。難易度は、ランキング目的で訓練された失敗予測器によって推定され、多様性は深層意味論的な動画特徴を用いて測定され、制約されたラベリング予算の下で二つをバランスさせる貪欲な手法が採用される。複数のVQAデータセットとモデルにまたがる実験は、MDS-VQAが、特にアクティブなファインチューニングに有益な、多様で難易度の高いサンプルを特定することを示している。ターゲットドメインごとにわずか5%の選択サブセットのみを用いると、ファインチューニングされたモデルは平均SRCCを0.651から0.722へ改善し、トップのgMADランクを達成することが示され、強力な適応と一般化が示唆されている。