OracleからNoisy Contextへ：Speech-LLMにおける文脈的露出バイアスの低減

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Speech-LLMにおける文脈付きASRの訓練・テスト間の不一致を特定する。具体的には、モデルは訓練時にはオラクルの会話履歴を用いて学習する一方、推論時には誤りを含みうるノイジーな履歴に頼らなければならない。このギャップを著者らは「文脈的露出バイアス（contextual exposure bias）」と呼ぶ。
学習時の文脈として(1)教師誤りの知識をWhisper large-v3の仮説（hypotheses）により取り込むこと、(2)履歴への過度な依存を防ぐためのcontext dropout、(3)厳選した失敗事例で学習するDirect Preference Optimization（DPO）から成る、統一的な頑健性フレームワークを提案する。
TED-LIUM 3（in-domain）と、zero-shotのLibriSpeech（out-of-domain）での実験により、予測された履歴を用いたデコーディングで一貫した改善が得られることが示される。
2発話の履歴を用いた場合、Whisper仮説でSFTを行うことで、WERは5.59%（オラクル履歴での訓練）から5.47%へ低下し、さらにDPOを適用するとWERは5.17%まで改善する。
無関係な文脈への攻撃下では、DPOが最もWERの悪化が小さく（5.17% → 5.63%）、誤導的な会話文脈に対するより良い頑健性が示唆される。著者らはコード／モデルを公開している。

日経XTECH

Mistral AI Blog

Dev.to

Dev.to

Dev.to