RelayS2S: リアルタイム対話のためのデュアルパス・推測生成
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、低遅延と高いセマンティクス品質の両立を目指した、ハイブリッドなリアルタイム音声対話(speech-to-speech)アーキテクチャ「RelayS2S」を提案する。
- ターン検出後に2つの並列パスを動作させ、まず高速な双方向S2Sモデルが応答の短いプレフィックスを推測的にストリーミングする。次に、より遅いASR→LLMパイプラインが、そのプレフィックスに条件付けされた高品質な継続部分を生成する。
- 軽量な学習済み検証器が、推測されたプレフィックスを確定するか、遅いパスへフォールバックするかを判断する。これにより、いずれのコンポーネントの内部設計も乱すことなく、途切れのない発話を実現することを狙う。
- 実験では、RelayS2SがS2SレベルのP90音声オンセット遅延に一致しつつ、カスケード応答品質を平均で約99%維持できることが報告されており、その利点はスローパスのモデルが大きくなるほど増大する。
- 著者らは、RelayS2Sが既存のカスケード型パイプラインへの「ドロップイン」追加として機能すると主張しており、連携するGitHubリポジトリを通じて公開コード/データを提供している。
