広告

JAL-Turn: フルデュプレックス音声対話システムにおけるリアルタイムかつ頑健なターンテイキング検出のための、音響・言語の共同モデリング

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、産業グレードのフルデュプレックス音声対話システム向けに、頑健性と低遅延の両立が難しい状況でも動作する、軽量な音声のみのターンテイキング検出フレームワークJAL-Turnを提案する。
  • JAL-Turnは、事前学習済みの音響表現と言語的特徴を統合するためのクロスアテンションモジュールを用いた、音響・言語の共同モデリング手法により、素早い「保持(hold)対「シフト(shift)」の予測を実現する。
  • 凍結したASRエンコーダを共有することで、ターンテイキング予測を音声認識と完全に並列に実行し、エンドツーエンドの追加遅延や計算コストを発生させないことを目指す。
  • さらに著者らは、大規模な実世界の対話コーパスからターンテイキングのラベルを導出する、自動化されスケーラブルなデータ構築パイプラインも提案する。
  • 多言語の公開ベンチマークおよび自社内の日本語コールセンター向けデータセットでの実験により、JAL-Turnは強力なベースラインと比べてターンテイキング検出精度を向上させつつ、リアルタイム性能を維持することが示される。

Abstract

従来の進歩にもかかわらず、工業グレードのVoice AIエージェント導入において、効率的かつ堅牢なターンテイキング検出を実現することは依然として大きな課題です。既存の多くのシステムは音響的または意味論的な手がかりのみに依存しており、その結果、精度と安定性が不十分になります。一方で、近年の試みとして大規模言語モデルにフルデュプレックス能力を持たせることがありますが、これはコストの高いフルデュプレックスデータを必要とし、さらに学習および導入に大きなオーバーヘッドがかかるため、リアルタイム性能が制限されます。本論文では、保持(hold)状態と交替(shift)状態の低遅延予測を支えるために、事前学習済みの音響表現と言語特徴を適応的に統合するクロスアテンション・モジュールを採用する、音響・言語の共同モデリングのパラダイムに基づく、軽量かつ効率的な音声のみのターンテイキング枠組み「JAL-Turn」を提案します。凍結したASRエンコーダを共有することで、JAL-Turnはターンテイキング予測を音声認識と完全に並列に実行でき、追加のエンドツーエンド遅延や計算オーバーヘッドを導入しません。さらに、大規模な実世界対話コーパスから信頼できるターンテイキングラベルを自動的に導出する、スケーラブルなデータ構築パイプラインも提案します。公開マルチリンガルベンチマークおよび社内の日本語カスタマーサービスデータセットに対する大規模な実験により、JAL-Turnが検出精度において強力な最先端ベースラインを一貫して上回り、かつ優れたリアルタイム性能を維持することを示します。

広告