会話を蒸留する：LLMベースASRのための会話音声コンテキストの抽象的圧縮

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

既存のLLMベースASRは発話を単独で扱うことが多く、先行ターンの会話文脈を活用しにくい点を問題設定としている研究である。
多ターンの教師あり学習後、会話文脈の効果は主に文脈上の「固有の実体（contextual entities）」の認識に寄与することを示している。
ただし生の先行ターン音声トークン列をそのまま条件付けすると、会話が長くなるほど前向きの音声列が増えて計算コストが急増する。
そこで提案手法として、先行ターンの音声部分を学習済みの固定長潜在トークンに置き換える「抽象的圧縮（Abstract Compression）」を導入し、トークン削減と精度の両立を狙っている。
実験では、圧縮モデルが生文脈条件付けの利得の一部を、より小さい先行ターン音声フットプリントで回復できることを、in-domain/out-of-domainの両方で示し、セットアップの分析とトレードオフも提示している。

Abstract

標準的なLLMベースの音声認識システムは通常、発話を単独で処理するため、会話の文脈を活用する能力が制限されます。本研究では、先行ターンからのマルチモーダルな文脈がLLMベースのASRを改善するかどうか、またその文脈を効率的に表現する方法について検討します。その結果、教師ありのマルチターン学習の後では、会話の文脈は主に文脈上のエンティティの認識に役立つことがわかりました。しかし、生の文脈に条件付けすることは高コストです。というのも、先行ターンの音声トークン列は会話の長さに応じて急速に増大するからです。これに対処するため、我々はAbstract Compression（抽象圧縮）を提案します。これは、対応する逐語（トランスクリプト）を明示的に保持したまま、先行ターンの音声部分を固定数の学習済み潜在トークンで置き換えます。ドメイン内およびドメイン外の両方のテストセットにおいて、圧縮モデルは、生の文脈条件付けによる利得の一部を、先行ターンの音声フットプリントを小さくして回復することを示します。また、圧縮設定とそのトレードオフに関する的を絞った分析も提供します。