同期化されたオーディオ・ビジュアルのマルチビューキャプチャシステム

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、既存のマルチビューキャプチャ構成が主に映像に重点を置き、高品質な音声キャプチャや、会話研究に必要となる厳密な音声—映像のアライメントへの対応が限定的であるというギャップを指摘している。
  • 論文は、同期化された音声と同期化された映像を第一級の信号として扱うオーディオ・ビジュアルのマルチビューキャプチャシステムを提案し、マルチカメラおよびマルチマイクのパイプライン全体にわたって統一されたタイミングアーキテクチャを用いることでそれらを同期させる。
  • 著者らは、キャリブレーション、取得(アクイジション)、および品質管理のための実用的なエンドツーエンドのワークフローを提示し、再現可能なマルチセッション録画を大規模に実現できるようにしている。
  • 音声—映像のキャプチャされたストリームが、ターンテイキングやオーバーラップといったタイミング現象を含め、会話行動のきめ細かな分析やモデル化に十分な時間的一貫性を達成していることを、定量的な結果として報告している。

Abstract

マルチビュー撮像システムは、制御された条件下で人間の動作を記録するための研究において重要な手段である。既存の多くのシステムは映像ストリームを中心に設計されており、音声の取得や厳密な音声・映像アラインメントにほとんど、あるいはまったく対応していない。これは、会話的な相互作用の研究において、ターンテイキング、オーバーラップ、プロソディのレベルでのタイミングが重要であるにもかかわらずである。本技術レポートでは、このギャップを、同期した音声と同期した映像を一次の信号(first-class signals)として扱うことで埋める、オーディオ・ビジュアルのマルチビュー撮像システムについて述べる。このシステムは、統一されたタイミング・アーキテクチャのもとで、マルチカメラのパイプラインとマルチチャンネルのマイク録音を統合し、校正、取得、品質管理のための実用的なワークフローを提供する。これにより、スケールに応じた反復可能な記録が可能になる。運用時の同期性能を定量化し、その結果得られる記録が、会話行動の精緻な分析およびデータ駆動型モデル化を支えるのに十分な時間的一貫性を有していることを示す。

同期化されたオーディオ・ビジュアルのマルチビューキャプチャシステム | AI Navigate