Interactive ASR: 人間のような対話と意味的一貫性評価に向けたエージェント型音声認識

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単語誤り率（WER）による従来のASR評価では、文レベルの意味的誤りを見落とし得るため、トークン精度を超えた意味認識に基づく評価が必要だと主張している。
LLM-as-a-judge（LLMを審判として用いる仕組み）により、意味的一貫性と認識品質を評価するエージェント型のインタラクティブASRフレームワークを提案する。
著者らはさらに、意味的フィードバックを用いてASR出力を反復的に洗練することで、人間のような修正を模擬するLLM駆動のマルチターン対話メカニズムを設計している。
GigaSpeech（英語）、WenetSpeech（中国語）、ASRU 2019のコードスイッチングといったベンチマークでの実験により、客観評価と主観評価の両方において、意味忠実度とインタラクティブな修正能力の向上が示されている。
著者らは、インタラクティブでエージェント型の音声認識システムに関するさらなる研究を支援するためにコードを公開する予定である。

要旨: 近年、モデルアーキテクチャの進歩や大規模な学習データによって、自動音声認識（ASR）は目覚ましい進展を遂げてきました。しかし、重要な2つの側面が十分に掘り下げられていません。第一に、何十年もの間支配的な評価指標である単語誤り率（Word Error Rate: WER）は、すべての単語を同等に扱い、文レベルにおける発話の意味的正しさを反映できないことがしばしばあります。第二に、人間のコミュニケーションに不可欠な対話的修正（interactive correction）は、ASR研究において体系的に研究されることはほとんどありません。本論文では、これら2つの観点を、エージェント型の枠組みに基づく対話的ASRのために統合します。認識品質をトークンレベルの精度を超えて評価するために、意味を考慮した評価指標として「LLM-as-a-Judge」を活用することを提案します。さらに、LLM駆動のエージェント・フレームワークを設計し、人間に近い多ターンの対話を模擬することで、意味に基づくフィードバックを通じて認識出力を反復的に改善できるようにします。GigaSpeech（英語）、WenetSpeech（中国語）、ASRU 2019のコードスイッチングテストセットといった標準ベンチマークに対して、広範な実験を行います。客観評価と主観評価の両方により、提案フレームワークが意味の忠実性と対話的修正能力の向上に有効であることが示されます。今後の対話的かつエージェント型ASRの研究を促進するために、コードを公開します。