TransVLM：あらゆるショット遷移を検出するためのビジョン-ランゲージ・フレームワークとベンチマーク

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、従来のショット境界検出（SBD）が「切れ目」の一点にタスクを寄せるため複雑な遷移で失敗し、しばしばショットが壊れた結果になると指摘しています。
著者らは曖昧な点を探すのではなく、遷移が起きている「連続した時間区間」を明示的に検出する Shot Transition Detection（STD）へ課題設定を組み替えています。
STD向けに、TransVLM（Vision-Language Model：VLM）フレームワークを提案し、入力段階で光フローを重要な運動の事前知識として注入し、色情報と運動情報を単純に融合することで時間的認識を高めています。
公開データの深刻なクラス不均衡に対して、学習用に多様な遷移動画を合成するスケーラブルなデータエンジンと、STDの包括的なベンチマークを設計しています。
実験の結果、TransVLMは従来のヒューリスティック手法、専門的な時空間ネットワーク、トップクラスのVLMを上回り、さらに本手法はプロダクションに展開済みです。

要旨: 従来のショット境界検出（SBD）は、タスクを孤立したカット点の集合として定式化することで複雑な遷移に本質的に苦戦し、その結果として破損した動画ショットを頻繁に生み出します。私たちは、この根本的な制約をショット遷移検出（STD）タスクとして明確に定式化することで解決します。あいまいな点を探索するのではなく、STDは遷移の連続的な時間区間を明示的に検出します。これに取り組むため、私たちはSTDのためのVision-Language Model（VLM）フレームワークであるTransVLMを提案します。空間的な意味論に主に依存し、ショット間の微細なダイナミクスに苦戦する通常のVLMとは異なり、提案手法では入力段階で光学フローを重要な動きの事前情報として明示的に注入します。シンプルでありながら効果的な特徴融合戦略により、TransVLMは連結された色と動きの表現を直接処理し、言語バックボーンに追加の視覚トークンのオーバーヘッドを課すことなく時間的な認識を大幅に高めます。公開データにおける深刻なクラス不均衡を克服するために、頑健な学習のための多様な遷移動画を合成するスケーラブルなデータエンジンを設計し、あわせてSTDの包括的なベンチマークも構築します。広範な実験により、TransVLMが総合的に優れた性能を達成し、従来のヒューリスティック手法、専用の時空間ネットワーク、そしてトップクラスのVLMを上回ることが示されました。本研究はプロダクションにデプロイされています。関連する研究については、HeyGen Research（https://www.heygen.com/research）およびHeyGen Avatar-V（https://www.heygen.com/research/avatar-v-model）をご覧ください。プロジェクトページ: https://chence17.github.io/TransVLM/

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

AI-SCHOLAR

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

日経XTECH

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

米アンソロピックが「Cowork」提供 Mythos発表に続くAIエージェント

日経XTECH

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

Dev.to

TransVLM：あらゆるショット遷移を検出するためのビジョン-ランゲージ・フレームワークとベンチマーク

要点

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

データセンター、新技術が育つ場へ日本の部材産業にチャンス

米アンソロピックが「Cowork」提供 Mythos発表に続くAIエージェント

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

人型ロボ、工場から飛び出しオフィスへ 「人が多い領域」の自動化を目指す

データセンター、新技術が育つ場へ 日本の部材産業にチャンス

米アンソロピックが「Cowork」提供 Mythos発表に続くAIエージェント

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

データセンター、新技術が育つ場へ日本の部材産業にチャンス