Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

arXiv cs.AI / 3/30/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 既存のLLMベースASRは発話を単独で扱うことが多く、先行ターンの会話文脈を活用しにくい点を問題設定としている研究である。
  • 多ターンの教師あり学習後、会話文脈の効果は主に文脈上の“固有の実体(contextual entities)”の認識に寄与することを示している。
  • ただし生の先行ターン音声トークン列をそのまま条件付けすると、会話が長くなるほど前向きの音声列が増えて計算コストが急増する。
  • そこで提案手法として、先行ターンの音声部分を学習済みの固定長潜在トークンに置き換える「Abstract Compression」を導入し、トークン削減と精度の両立を狙っている。
  • 実験では、圧縮モデルが生文脈条件付けの利得の一部を、より小さい先行ターン音声フットプリントで回復できることを、in-domain/out-of-domainの両方で示し、セットアップの分析とトレードオフも提示している。

Abstract

Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.