CineSRD: 視覚・音響・言語的手掛かりを活用したオープンワールドの映像メディア話者ダイアリゼーション

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • 本論文は CineSRD を提案する。映像、音声、字幕からの視覚・音響・言語的手掛かりを統合的に用い、オープンワールドの映像メディアにおける話者ダイアリゼーションを行う統一的な多模態フレームワークである。
  • CineSRD は初期の話者を登録するための視覚的アンカーのクラスタリングを行い、次に音声言語モデルを用いて話者の転換を検出して注釈を精練し、画面外の話者にも対応する。
  • 著者らは、長尺の複数話者コンテンツを評価するため、中国語および英語の番組を含む映像メディア専用の話者ダイアリゼーションベンチマークを公開した。
  • 実験結果は、提案ベンチマークで CineSRD が優れた性能を達成し、従来のデータセットでも競争力のある結果を示すことを示しており、オープンワールド設定におけるロバスト性と汎用性を示している。

要約:従来の話者ダイアリゼーションシステムは、会議やインタビューなど、話者数が限定され、音響条件が比較的クリーンな制約された状況に主に焦点を当ててきました。オープンワールドの話者ダイアリゼーションを探るため、私たちはこのタスクを視覚メディア領域へ拡張し、映画やテレビシリーズなどの複雑な視聴覚プログラムを包含します。この新しい設定には、長編動画の理解、多数の話者、音声と映像手掛かり間のモーダル間非同期、そして野外での制御不能なばらつきといった、いくつかの課題が生じます。これらの課題に対処するため、私たちは Cinematic Speaker Registration & Diarization (CineSRD) を提案します。CineSRD は、ビデオ、音声、字幕からの視覚・音響・言語的手掛かりを統合した、話者アノテーションのための統一マルチモーダルフレームワークです。CineSRD はまず視覚的アンカーのクラスタリングを実行して初期の話者を登録し、その後、話者のターン検出のために音声言語モデルを統合してアノテーションを洗練させ、オフスクリーンの未登録話者を補足します。さらに、視覚メディア用の専用話者ダイアリゼーションベンチマークを作成・公開しており、中国語および英語のプログラムを含みます。実験結果は、CineSRD が提案されたベンチマークで優れた性能を達成し、従来のデータセットでも競争力のある結果を示しており、オープンワールドの視覚メディア設定における堅牢性と一般化可能性を裏付けることを示しています。