人間の監督を組み込んだ精密なビデオ言語の構築
arXiv cs.CV / 2026/4/24
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この論文は、被写体・シーン・動き・空間/カメラのダイナミクスを扱うビデオ言語モデル向けの構造化仕様を提示し、プロの動画制作者(映画関係者)と共同で作られた数百の視覚的プリミティブに基づけている。
- CHAI(Critique-based Human-AI Oversight)として、学習済みの人間エキスパートがモデルの「事前キャプション」を批評し、より良い「事後キャプション」へ修正する枠組みを提案し、テキスト生成はモデルに任せて人間は検証に集中できるようにすることで、アノテーション精度と効率を高めている。
- さらに、事前/事後キャプション間の批評や選好そのものを教師データとして活用し、SFT・DPO・推論時スケーリングなどでオープンソースVLM(Qwen3-VLなど)のキャプション生成、報酬モデリング、批評生成を改善する。
- アブレーションでは、監督フレームワークにより担保される批評の品質(精度・再現率・建設性)が下流性能を直接左右することが示されている。
- 最終的に、少量の専門家監督でGemini-3.1-Proのようなクローズド系モデルを上回るほか、大規模なプロ動画の再キャプションや、Wanなどの動画生成モデルの微調整(最大400ワードの詳細プロンプトに従い、カメラモーションやレンズ、フォーカス、視点、フレーミングをより細かく制御)にも適用している。
