DenseStep2M：密な指示型ビデオ注釈のためのスケーラブルなトレーニング不要パイプライン

arXiv cs.CV / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、トレーニング不要のパイプラインによって、実環境の指示型動画から時系列に根ざした高品質な手順ステップ注釈を自動抽出する「DenseStep2M」を提案しています。
ASR文字起こしの誤りや、ナレーションと映像の時間的整合の不一致といったデータのノイズ課題に対し、ショット分割、整合の悪い内容の除外、そしてマルチモーダル／LLM（Qwen2.5-VLとDeepSeek-R1）を用いた構造化ステップ生成で対応します。
DenseStep2Mは約10万本の動画と200万の詳細ステップから構成され、さらに人手で書かれたキャプションに基づくベンチマーク「DenseCaption100」も作成してアライメント品質を評価しています。
実験では、自動生成ステップと人手アノテーションの強い一致が示され、密な動画キャプション、手順ステップの時系列グラウンディング、クロスモーダル検索といった下流タスクで有意な改善が確認されます。また、複数の視点（エゴ視点／エクソ視点／混在）で堅牢なゼロショット汎化も示されています。
データセットはHugging Faceで公開されており、長時間の動画理解やマルチモーダル整合の研究に活用できます。