要旨: 多言語音声技術の目標は、異なる言語を話す個人同士の間でシームレスなコミュニケーションを可能にし、誰もが多言語話者であるかのような体験を実現することです。この体験を作り出すには、音声技術はいくつかの課題に取り組む必要があります。すなわち、混在する多言語入力の扱い、特定の語彙、そしてコードスイッチングです。しかし、現時点ではこの状況をベンチマークするデータセットは存在しません。そこで本研究では、これらの課題に対応できるかどうかを評価するために、現在の自動音声認識(ASR)システムを対象とした新しいベンチマークを提案します。このベンチマークは、複数の話者による科学論文のバイリンガルな議論から構成されており、各話者がそれぞれ異なる言語で会話します。私たちは、言語をまたいでASRの性能を一貫して比較できるようにする、Word Error Rate(WER)を超えた標準的な評価フレームワークを提供します。実験結果は、提案したデータセットが、最先端のASRシステムにとってなお未解決のオープンな課題であることを示しています。このデータセットは https://huggingface.co/datasets/goodpiku/muscat-eval で利用可能です
\\ \ \ newline \Keywords{multilingual, speech recognition, audio segmentation, speaker diarization}
MUSCAT:多言語・科学的会話ベンチマーク
arXiv cs.CL / 2026/4/20
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本稿では、MUSCATという新しい多言語音声ベンチマークを提案し、実際の多言語会話シーンでASRがどれだけ対応できるかを評価することを目的としています。
- ベンチマークは、複数話者がそれぞれ異なる言語で話すバイリンガルな「科学論文の議論」に基づいており、混在言語入力、専門語彙、コードスイッチングといった課題を含みます。
- WER(単語誤り率)を超えた標準化された評価枠組みを提供し、言語間でのASR性能比較をより公正に行えるようにしています。
- 実験結果では、このデータセットは最先端のASRにとっても依然として難しい未解決課題であることが示されています。
- MUSCATデータセットは研究・ベンチマーク利用のためにHugging Faceで公開されています。



