OracleからNoisy Contextへ:Speech-LLMにおける文脈的露出バイアスの低減
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Speech-LLMにおける文脈付きASRの訓練・テスト間の不一致を特定する。具体的には、モデルは訓練時にはオラクルの会話履歴を用いて学習する一方、推論時には誤りを含みうるノイジーな履歴に頼らなければならない。このギャップを著者らは「文脈的露出バイアス(contextual exposure bias)」と呼ぶ。
- 学習時の文脈として(1)教師誤りの知識をWhisper large-v3の仮説(hypotheses)により取り込むこと、(2)履歴への過度な依存を防ぐためのcontext dropout、(3)厳選した失敗事例で学習するDirect Preference Optimization(DPO)から成る、統一的な頑健性フレームワークを提案する。
- TED-LIUM 3(in-domain)と、zero-shotのLibriSpeech(out-of-domain)での実験により、予測された履歴を用いたデコーディングで一貫した改善が得られることが示される。
- 2発話の履歴を用いた場合、Whisper仮説でSFTを行うことで、WERは5.59%(オラクル履歴での訓練)から5.47%へ低下し、さらにDPOを適用するとWERは5.17%まで改善する。
- 無関係な文脈への攻撃下では、DPOが最もWERの悪化が小さく(5.17% → 5.63%)、誤導的な会話文脈に対するより良い頑健性が示唆される。著者らはコード/モデルを公開している。