Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
arXiv cs.AI / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 既存のLLMベースASRは発話を単独で扱うことが多く、先行ターンの会話文脈を活用しにくい点を問題設定としている研究である。
- 多ターンの教師あり学習後、会話文脈の効果は主に文脈上の“固有の実体(contextual entities)”の認識に寄与することを示している。
- ただし生の先行ターン音声トークン列をそのまま条件付けすると、会話が長くなるほど前向きの音声列が増えて計算コストが急増する。
- そこで提案手法として、先行ターンの音声部分を学習済みの固定長潜在トークンに置き換える「Abstract Compression」を導入し、トークン削減と精度の両立を狙っている。
- 実験では、圧縮モデルが生文脈条件付けの利得の一部を、より小さい先行ターン音声フットプリントで回復できることを、in-domain/out-of-domainの両方で示し、セットアップの分析とトレードオフも提示している。




