TASTE-Streaming: 話し言語モデリングのためのテキスト整合付き音声トークン化と埋め込みのストリーム化へ

arXiv cs.CL / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

要点

  • TASTE-Sは、エンコーダにCTCベースのASRモジュールを統合して即時のデュアルモダリティエンコードを実現することで遅延を低減します。
  • このアプローチはユニットデコーダを再設計して即時のデコードを実現し、リアルタイムのストリーミング用途を可能にします。
  • 共訓練により、TASTE-Sは遅延を大幅に削減しつつ長文のエンコード・デコードをサポートし、TASTEの性能に匹敵します。
  • 転写品質に対して頑健であり、不完全なASR出力にも耐性があることを示しており、ストリーミングSLMの実用性が向上しています。