原点回帰：音声エージェント時代におけるASRの再検討

arXiv cs.AI / 2026/3/27

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

論文は、ASRがベンチマークでは高精度でも、実世界の音声エージェントでの性能劣化が既存評価では体系的にカバーされていない点を指摘している。
WildASRという4言語対応の診断用ベンチマークを提案し、実話音声データから環境劣化・デモグラフィック変化・言語多様性の3軸でASRロバスト性を分解して測れるようにしている。
7つの代表的ASRシステムを評価した結果、劣化が深刻かつ不均一であり、ロバスト性が言語間や条件間で移転しにくいことを示している。
部分的または劣化した入力で「本当は話されていない内容をもっともらしく出す（ハルシネーション）」現象が起き、安全上の具体的リスク（エージェント挙動への影響）になると警告している。
さらに、実運用の判断に役立つ3つの分析ツールを併せて提示し、要因分離型の評価が生産環境での信頼性理解と改善に不可欠だと結論づけている。