要旨: 従来のショット境界検出(SBD)は、タスクを孤立したカット点の集合として定式化することで複雑な遷移に本質的に苦戦し、その結果として破損した動画ショットを頻繁に生み出します。私たちは、この根本的な制約をショット遷移検出(STD)タスクとして明確に定式化することで解決します。あいまいな点を探索するのではなく、STDは遷移の連続的な時間区間を明示的に検出します。これに取り組むため、私たちはSTDのためのVision-Language Model(VLM)フレームワークであるTransVLMを提案します。空間的な意味論に主に依存し、ショット間の微細なダイナミクスに苦戦する通常のVLMとは異なり、提案手法では入力段階で光学フローを重要な動きの事前情報として明示的に注入します。シンプルでありながら効果的な特徴融合戦略により、TransVLMは連結された色と動きの表現を直接処理し、言語バックボーンに追加の視覚トークンのオーバーヘッドを課すことなく時間的な認識を大幅に高めます。公開データにおける深刻なクラス不均衡を克服するために、頑健な学習のための多様な遷移動画を合成するスケーラブルなデータエンジンを設計し、あわせてSTDの包括的なベンチマークも構築します。広範な実験により、TransVLMが総合的に優れた性能を達成し、従来のヒューリスティック手法、専用の時空間ネットワーク、そしてトップクラスのVLMを上回ることが示されました。本研究はプロダクションにデプロイされています。関連する研究については、HeyGen Research(https://www.heygen.com/research)およびHeyGen Avatar-V(https://www.heygen.com/research/avatar-v-model)をご覧ください。プロジェクトページ: https://chence17.github.io/TransVLM/
TransVLM:あらゆるショット遷移を検出するためのビジョン-ランゲージ・フレームワークとベンチマーク
arXiv cs.CV / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、従来のショット境界検出(SBD)が「切れ目」の一点にタスクを寄せるため複雑な遷移で失敗し、しばしばショットが壊れた結果になると指摘しています。
- 著者らは曖昧な点を探すのではなく、遷移が起きている「連続した時間区間」を明示的に検出する Shot Transition Detection(STD)へ課題設定を組み替えています。
- STD向けに、TransVLM(Vision-Language Model:VLM)フレームワークを提案し、入力段階で光フローを重要な運動の事前知識として注入し、色情報と運動情報を単純に融合することで時間的認識を高めています。
- 公開データの深刻なクラス不均衡に対して、学習用に多様な遷移動画を合成するスケーラブルなデータエンジンと、STDの包括的なベンチマークを設計しています。
- 実験の結果、TransVLMは従来のヒューリスティック手法、専門的な時空間ネットワーク、トップクラスのVLMを上回り、さらに本手法はプロダクションに展開済みです。