AI Navigate

VQQA: 動画評価と品質改善のエージェント型アプローチ

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • VQQA は、テキストから動画への変換と画像から動画への変換タスクの両方に一般化する、動画品質評価と改善のためのマルチエージェント・フレームワークである。
  • 従来の評価指標を、動的な視覚質問と視覚言語モデルの批評に置き換え、それらが意味的勾配として機能し、ブラックボックスの自然言語インターフェースを介して最適化を導く。
  • このアプローチは、数回の改良ステップで視覚的アーティファクトを効率的に分離して修正するクローズド・ループのプロンプト最適化プロセスを可能にし、確率的探索とプロンプト最適化のベースラインを上回る。
  • 実証的な結果は、T2V-CompBench で +11.57%、VBench2 で +8.43% の絶対的改善を示し、通常の生成と比較して大幅な品質向上を示している。

要約:
動画生成モデルの急速な進歩にもかかわらず、その出力を複雑なユーザーの意図に一致させることは依然として難しい。
既存のテスト時最適化手法は、一般に計算コストが高いか、モデル内部へのホワイトボックスアクセスを必要とする。
これに対処するため、VQQA(Video Quality Question Answering:ビデオ品質質問応答)を提案します。これは、さまざまな入力モダリティとビデオ生成タスクに汎用化可能な統合型のマルチエージェント・フレームワークです。
動的に視覚的な質問を生成し、得られた Vision-Language Model(VLM)の批評を意味的勾配として利用することで、VQQAは従来の受動的な評価指標を、人間が解釈し実用に結びつくフィードバックへ置換します。
これにより、ブラックボックスの自然言語インターフェースを介した高効率な閉ループのプロンプト最適化プロセスが可能になります。
大規模な実験により、VQQAは視覚的アーティファクトを効果的に分離・解消し、わずか数回の改良ステップで生成品質を大幅に向上させることが示されています。
本手法はテキストから動画への変換(T2V)と画像から動画への変換(I2V)の両タスクに適用可能で、従来の生成と比べて、T2V-CompBenchで+11.57%、VBench2で+8.43%の絶対向上を達成し、最先端の確率的探索やプロンプト最適化手法を大幅に上回っています。