LVSum：タイムスタンプ対応型の長尺動画要約のためのベンチマーク

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、きめ細かな時間的整合（テンプラルアライメント）を備えた、タイムスタンプ対応型の長尺動画要約のための人手注釈付きベンチマーク「LVSum」を紹介する。
LVSumは13の領域にまたがる長編動画を対象とし、意味的かつ時間的に根拠づけられた評価を支えるための正確な時間参照を含む人手による要約を提供する。
著者らは、LVSumに対して独自およびオープンソースのマルチモーダルLLMの双方を評価し、長時間にわたるモデルの時間理解に一貫した欠点があることを見出す。
本研究では、標準的な指標に加えて、内容の関連性およびモダリティの整合性に焦点を当てたLLMベースの評価指標を提案し、要約品質をより適切に捉えることを目指す。
全体として、本結果は、長尺動画要約システムにおける時間的推論の改善のための基盤になるものとして位置づけられている。

概要: 長時間の動画要約は、現在のマルチモーダル大規模言語モデル（MLLMs）にとって大きな課題をもたらします。特に、長い時間軸にわたって時間的な忠実性を維持すること、そして意味的にも時間的にも根拠のある要約を生成することが難しい点が挙げられます。本研究では、長時間動画要約を微細な時間的アライメントにより評価することを目的とした、人手でアノテーションされたベンチマークであるLVSumを提案します。LVSumは13の領域にわたる多様な長尺動画から構成され、各動画には、正確な時間参照を含む人手生成の要約が対応付けられています。さらに、LVSumに対して、独自（プロプライエタリ）およびオープンソースの双方のMLLMを対象に、包括的な評価を行います。内容の関連性とモダリティの整合性を測るために新たに導入したLLMベースの指標に加え、標準的な評価指標も用いて性能を評価します。実験の結果、既存のMLLMにおいて時間理解に関する体系的なギャップが存在することが明らかになり、長時間動画要約における時間推論を前進させるための新たな基盤を築くための洞察が得られます。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

LVSum：タイムスタンプ対応型の長尺動画要約のためのベンチマーク

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵