AVSRがビデオ会議に出会うとき:データセット、劣化、そして性能崩壊の背後にある隠れたメカニズム

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、主流のビデオ会議(VC)プラットフォームにおいて、最先端の音声・映像統合型音声認識(AVSR)モデルを初めて体系的に評価し、現実環境での深刻な性能劣化を明らかにする。
  • 崩壊の主因として、主に伝送歪みと、想定外の人間の過剰な誇張表現(hyper-expression)を挙げるとともに、それらの振る舞いをより適切に捉えるためにLombard効果の使用に基づいて構築した、VC特化の新しいマルチモーダル・データセットMLD-VCを導入する。
  • 著者らは、話声改善(speech enhancement)アルゴリズムが分布シフトの主要因であり、とりわけ音声の第1および第2フォルマントを変化させることを特定する。
  • Lombard効果によって生じる分布シフトが、話声改善によるものと非常によく一致することを示し、Lombardデータで訓練されたAVSRモデルがVCでより頑健である理由を説明する。
  • MLD-VCでAVSRモデルを微調整することで、複数のVCプラットフォームにわたって文字誤り率(CER)が平均17.5%低下し、データセットはHugging Faceで公開される。

Abstract

音声・映像統合の音声認識(AVSR)はオフライン環境で目覚ましい進展を遂げている一方で、実世界のビデオ会議(VC)における頑健性はほとんど未解明のままです。本論文では、主要なVCプラットフォームにわたって最先端のAVSRモデルを体系的に評価した最初の試みを提示し、伝送の歪みと自発的な人の過剰表現(hyper-expression)によって深刻な性能劣化が生じることを明らかにします。このギャップを埋めるために、VC向けに最適化された最初のマルチモーダルデータセットである extbf{MLD-VC} を構築します。これには31人の話者、22.79時間の音声・映像データが含まれ、さらに人の過剰表現を強化するためにロムバード効果(Lombard effect)を明示的に用いています。包括的な分析により、分布シフトの主な原因が音声強調アルゴリズムであり、それが音声の第1および第2フォルマントを変化させることを見出します。興味深いことに、ロムバード効果によって引き起こされる分布シフトは、音声強調によって導入されるものと非常によく似ていることが分かります。これにより、ロムバードデータで学習したモデルがVCにおいてより高い頑健性を示す理由が説明できます。MLD-VCでAVSRモデルを微調整することで、この問題は軽減され、複数のVCプラットフォームにおいて平均17.5%のCER(文字誤り率)の削減が達成されます。本研究の知見とデータセットは、実世界のビデオ会議においてより頑健で汎用性の高いAVSRシステムを開発するための基盤を提供します。MLD-VCは https://huggingface.co/datasets/nccm2p2/MLD-VC で利用可能です。