サリエンシーに従う: Retrieval-augmented Dense Video Captioning (DVC) のための監督付きサリエンシー

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

STaRC は、DVC のグラウンドトゥルースアノテーションから直接訓練されたハイライト検出モジュールを用いることで、追加のラベリングを必要とせず、検索補助型密な動画キャプショニングのための監督付きフレームレベルサリエンシー手法を導入します。
サリエンシースコアを統一的な時系列信号として用い、サリエンシー誘導セグメンテーションによる検索を駆動し、デコーダに注入された明示的な Saliency Prompts を介してキャプション生成を通知します。
この手法は実際のイベント遷移と一致する時間的に一貫したセグメントを生成し、ほとんどの指標で YouCook2 および ViTT において最先端の性能を達成します。
コードは GitHub で公開されており、STaRC の再現と実用的な普及を可能にします。

要約: Dense Video Captioning (DVC) のための既存の検索補助型アプローチは、真のイベント境界に沿った正確な時間的セグメーションを達成できないことが多く、イベント境界を見落とすヒューリスティックな戦略に依存しています。提案されたフレームワーク、\textbf{STaRC} は、ハイライト検出モジュールを通じてフレームレベルのサリエンシーを監督することでこの制限を克服します。ハイライト検出モジュールは追加のアノテーションを必要とせず、DVC のグラウンドトゥルースアノテーションから直接導出された二値ラベルで訓練される点に留意してください。さらに、サリエンシースコアを統一的な時間的信号として活用し、サリエンシー誘導セグメンテーションによる検索を駆動し、デコーダに注入された明示的なサリエンシー・プロンプトを介してキャプション生成を知らせることを提案します。サリエンシー制約付きセグメンテーションを課すことにより、実際のイベント遷移と緊密に一致する時間的に一貫したセグメントが生成され、より正確な検索と文脈的に根拠のあるキャプション生成が実現します。YouCook2 および ViTT のベンチマークで包括的な評価を実施し、STaRC はほとんどの指標で最先端の性能を達成します。コードは https://github.com/ermitaju1/STaRC で公開されています。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

サリエンシーに従う: Retrieval-augmented Dense Video Captioning (DVC) のための監督付きサリエンシー

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer