人間の監督を組み込んだ精密なビデオ言語の構築

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この論文は、被写体・シーン・動き・空間／カメラのダイナミクスを扱うビデオ言語モデル向けの構造化仕様を提示し、プロの動画制作者（映画関係者）と共同で作られた数百の視覚的プリミティブに基づけている。
CHAI（Critique-based Human-AI Oversight）として、学習済みの人間エキスパートがモデルの「事前キャプション」を批評し、より良い「事後キャプション」へ修正する枠組みを提案し、テキスト生成はモデルに任せて人間は検証に集中できるようにすることで、アノテーション精度と効率を高めている。
さらに、事前／事後キャプション間の批評や選好そのものを教師データとして活用し、SFT・DPO・推論時スケーリングなどでオープンソースVLM（Qwen3-VLなど）のキャプション生成、報酬モデリング、批評生成を改善する。
アブレーションでは、監督フレームワークにより担保される批評の品質（精度・再現率・建設性）が下流性能を直接左右することが示されている。
最終的に、少量の専門家監督でGemini-3.1-Proのようなクローズド系モデルを上回るほか、大規模なプロ動画の再キャプションや、Wanなどの動画生成モデルの微調整（最大400ワードの詳細プロンプトに従い、カメラモーションやレンズ、フォーカス、視点、フレーミングをより細かく制御）にも適用している。

Black Hat USA

AI Business

アクセンチュアとSAPがERP導入で協業、中堅以下の未開拓顧客へAI訴求

日経XTECH

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

人間の監督を組み込んだ精密なビデオ言語の構築

要点

関連記事

Black Hat USA

アクセンチュアとSAPがERP導入で協業、中堅以下の未開拓顧客へAI訴求

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer