AVSRがビデオ会議に出会うとき:データセット、劣化、そして性能崩壊の背後にある隠れたメカニズム
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、主流のビデオ会議(VC)プラットフォームにおいて、最先端の音声・映像統合型音声認識(AVSR)モデルを初めて体系的に評価し、現実環境での深刻な性能劣化を明らかにする。
- 崩壊の主因として、主に伝送歪みと、想定外の人間の過剰な誇張表現(hyper-expression)を挙げるとともに、それらの振る舞いをより適切に捉えるためにLombard効果の使用に基づいて構築した、VC特化の新しいマルチモーダル・データセットMLD-VCを導入する。
- 著者らは、話声改善(speech enhancement)アルゴリズムが分布シフトの主要因であり、とりわけ音声の第1および第2フォルマントを変化させることを特定する。
- Lombard効果によって生じる分布シフトが、話声改善によるものと非常によく一致することを示し、Lombardデータで訓練されたAVSRモデルがVCでより頑健である理由を説明する。
- MLD-VCでAVSRモデルを微調整することで、複数のVCプラットフォームにわたって文字誤り率(CER)が平均17.5%低下し、データセットはHugging Faceで公開される。
