JAL-Turn: フルデュプレックス音声対話システムにおけるリアルタイムかつ頑健なターンテイキング検出のための、音響・言語の共同モデリング
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、産業グレードのフルデュプレックス音声対話システム向けに、頑健性と低遅延の両立が難しい状況でも動作する、軽量な音声のみのターンテイキング検出フレームワークJAL-Turnを提案する。
- JAL-Turnは、事前学習済みの音響表現と言語的特徴を統合するためのクロスアテンションモジュールを用いた、音響・言語の共同モデリング手法により、素早い「保持(hold)対「シフト(shift)」の予測を実現する。
- 凍結したASRエンコーダを共有することで、ターンテイキング予測を音声認識と完全に並列に実行し、エンドツーエンドの追加遅延や計算コストを発生させないことを目指す。
- さらに著者らは、大規模な実世界の対話コーパスからターンテイキングのラベルを導出する、自動化されスケーラブルなデータ構築パイプラインも提案する。
- 多言語の公開ベンチマークおよび自社内の日本語コールセンター向けデータセットでの実験により、JAL-Turnは強力なベースラインと比べてターンテイキング検出精度を向上させつつ、リアルタイム性能を維持することが示される。



