AI Navigate

HORNet: ビジョン-言語モデルを用いた動画質問応答のためのタスク指向フレーム選択

arXiv cs.CV / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • HORNetは、Group Relative Policy Optimization(GRPO)で訓練された軽量なフレーム選択ポリシーで、凍結済みのビジョン-言語モデルが信頼性のあるVQA性能を得るために必要なフレームを選択します。
  • 入力フレームを最大99%削減し、VLMの処理時間を最大93%短縮することで、劇的な効率向上を実現し、短尺形式のベンチマークでの回答品質を向上させ、時間推論タスクでの性能も改善します(MSVD-QAでF1を+1.7ポイント、NExT-QAで+7.3ポイント)。
  • 本手法はSelect Any Frames(SAF)を定式化し、監督あり学習やPPOベースラインよりも分布外データに対する一般化性能が高いです。より強力なVLMと組み合わせた場合には、クロスモデル転移により相対ゲインが追加で8.5%生じます。
  • 6つのベンチマーク(341,877のQAペア、114.2時間の映像)で評価され、公開されているコードも提供されていることから、HORNetは、モデルが見るものを選ぶことが、生成するものを改善することの実用的な補完になることを示しています。

Abstract

Vision-language モデル(VLM)を用いたビデオ質問応答(VQA)は、入力動画からどのフレームを選択するかに極めて依存しますが、多くのシステムは均一またはヒューリスティックなサンプリングに頼っており、下流の回答品質を最適化できません。我々は \textbf{HORNet} を導入します。これは軽量なフレーム選択ポリシーで、Group Relative Policy Optimization(GRPO)で訓練され、凍結された VLM が正しく質問に答えるために必要なフレームを学習します。学習可能パラメータが 100 万未満の HORNet は、入力フレームを最大で 99%削減し、VLM の処理時間を最大で 93%削減します。一方、短尺ベンチマークでの回答品質を向上させ、MSVD-QA で +1.7% F1、NExT-QA で時系列推論タスクにおいて分布外での推論能力を高める性能を発揮します。これを Select Any Frames(SAF)として定式化します。SAF は視覚入力のキュレーションと VLM の推論を分離するタスクであり、GRPO で訓練した選択が教師ありおよび PPO の代替案より分布外での一般化性が高いことを示します。HORNet のポリシーは再訓練なしで他の VLM 回答者へも移行可能で、より強力なモデルと組み合わせた場合に追加の相対ゲインとして 8.5%をもたらします。6つのベンチマーク(合計 341,877 の QA ペア、114.2 時間のビデオを横断して評価)を対象にした結果、我々の成果は、VLM が見る「何」を最適化することは実用的で、生成する内容を最適化することの補完的な代替手段であり、効率性を向上させることを示しています。コードは https://github.com/ostadabbas/HORNet に公開されています。