音声認識のための拡散言語モデル

arXiv cs.CL / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散言語モデル（マスク付き拡散言語モデルおよび一様状態拡散モデルを含む）を、ASR仮説のリスコアリングを通じて音声認識を改善するように適応する方法を調査する。
リスコアリングのパイプラインにMDLMおよびUSDMを組み込むための実践的なガイダンスを提示し、認識テキストの精度に対するそれらの有効性を比較する。
さらに、CTC由来のフレーム単位確率分布と、USDM由来のラベル単位確率分布を、各デコーディングステップで融合することで、より良い候補転写（候補テキスト）を生成する新しい共同デコーディング手法を提案する。
結果として、USDMおよびMDLMはいずれも、標準的な手法と比べて転写精度を大きく改善できることが示され、著者らは再現性のためのコードおよびレシピを公開している。

要旨: 拡散言語モデルは、双方向の注意（attention）と並列なテキスト生成を可能にしたことにより、近年、標準的な言語モデルに代わる有力な選択肢として注目を集めています。本研究では、音声認識での利用を目的として、それらの変種を検討します。具体的には、ASR仮説（hypotheses）の再スコアリングに、マスク付き拡散言語モデル（MDLM）と一様状態拡散モデル（USDM）を組み込むための包括的なガイドを導入します。さらに、CTCとUSDMを組み合わせる新しい共同復号（joint-decoding）手法を設計します。この手法では、復号ステップごとに、CTCから得られるフレームごとの確率分布を、USDMによって計算されるラベルごとの確率分布と統合し、その結果として、USDMの強い言語知識とCTCの音響情報を組み合わせた新たな候補を生成します。実験結果は、USDMだけでなくMDLMも、認識されたテキストの精度を大幅に改善できることを示しています。すべてのコードとレシピを公開します。