HORNet: ビジョン-言語モデルを用いた動画質問応答のためのタスク指向フレーム選択
arXiv cs.CV / 2026/3/20
📰 ニュースTools & Practical UsageModels & Research
要点
- HORNetは、Group Relative Policy Optimization(GRPO)で訓練された軽量なフレーム選択ポリシーで、凍結済みのビジョン-言語モデルが信頼性のあるVQA性能を得るために必要なフレームを選択します。
- 入力フレームを最大99%削減し、VLMの処理時間を最大93%短縮することで、劇的な効率向上を実現し、短尺形式のベンチマークでの回答品質を向上させ、時間推論タスクでの性能も改善します(MSVD-QAでF1を+1.7ポイント、NExT-QAで+7.3ポイント)。
- 本手法はSelect Any Frames(SAF)を定式化し、監督あり学習やPPOベースラインよりも分布外データに対する一般化性能が高いです。より強力なVLMと組み合わせた場合には、クロスモデル転移により相対ゲインが追加で8.5%生じます。
- 6つのベンチマーク(341,877のQAペア、114.2時間の映像)で評価され、公開されているコードも提供されていることから、HORNetは、モデルが見るものを選ぶことが、生成するものを改善することの実用的な補完になることを示しています。
関連記事
日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ
日経XTECH
ブームの裏で制御AI未導入54%、工場の自動化阻むコストと人材不足
日経XTECH

「支払われなければ通報せよ」改正建設業法/日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました
日経XTECH
State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.
Dev.to
I Built a Zombie Process Killer Because Claude Code Ate 14GB of My RAM
Dev.to