概要: 長時間の動画要約は、現在のマルチモーダル大規模言語モデル(MLLMs)にとって大きな課題をもたらします。特に、長い時間軸にわたって時間的な忠実性を維持すること、そして意味的にも時間的にも根拠のある要約を生成することが難しい点が挙げられます。本研究では、長時間動画要約を微細な時間的アライメントにより評価することを目的とした、人手でアノテーションされたベンチマークであるLVSumを提案します。LVSumは13の領域にわたる多様な長尺動画から構成され、各動画には、正確な時間参照を含む人手生成の要約が対応付けられています。さらに、LVSumに対して、独自(プロプライエタリ)およびオープンソースの双方のMLLMを対象に、包括的な評価を行います。内容の関連性とモダリティの整合性を測るために新たに導入したLLMベースの指標に加え、標準的な評価指標も用いて性能を評価します。実験の結果、既存のMLLMにおいて時間理解に関する体系的なギャップが存在することが明らかになり、長時間動画要約における時間推論を前進させるための新たな基盤を築くための洞察が得られます。
LVSum:タイムスタンプ対応型の長尺動画要約のためのベンチマーク
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、きめ細かな時間的整合(テンプラルアライメント)を備えた、タイムスタンプ対応型の長尺動画要約のための人手注釈付きベンチマーク「LVSum」を紹介する。
- LVSumは13の領域にまたがる長編動画を対象とし、意味的かつ時間的に根拠づけられた評価を支えるための正確な時間参照を含む人手による要約を提供する。
- 著者らは、LVSumに対して独自およびオープンソースのマルチモーダルLLMの双方を評価し、長時間にわたるモデルの時間理解に一貫した欠点があることを見出す。
- 本研究では、標準的な指標に加えて、内容の関連性およびモダリティの整合性に焦点を当てたLLMベースの評価指標を提案し、要約品質をより適切に捉えることを目指す。
- 全体として、本結果は、長尺動画要約システムにおける時間的推論の改善のための基盤になるものとして位置づけられている。




