TASTE-Streaming: 話し言語モデリングのためのテキスト整合付き音声トークン化と埋め込みのストリーム化へ
arXiv cs.CL / 2026/3/16
📰 ニュースTools & Practical UsageModels & Research
要点
- TASTE-Sは、エンコーダにCTCベースのASRモジュールを統合して即時のデュアルモダリティエンコードを実現することで遅延を低減します。
- このアプローチはユニットデコーダを再設計して即時のデコードを実現し、リアルタイムのストリーミング用途を可能にします。
- 共訓練により、TASTE-Sは遅延を大幅に削減しつつ長文のエンコード・デコードをサポートし、TASTEの性能に匹敵します。
- 転写品質に対して頑健であり、不完全なASR出力にも耐性があることを示しており、ストリーミングSLMの実用性が向上しています。

