リアルタイム対話AIのための一次話者セグメンテーションを組み込んだ階層型 End-of-Turn モデル

arXiv cs.LG / 2026/3/17

📰 ニュースModels & Research

共有:

要点

本論文は、一次話者セグメンテーションと階層的 End-of-Turn 検出を組み合わせることで、二人の話者が存在する状況において自然なターンテーキングを可能にする、音声ベースの対話AI向けのリアルタイム前処理フロントエンドを提案する。
多話者環境において一次話者を堅牢に追跡し、背景の会話によって後続の End-of-Turn 決定が混乱しないようにする。
本システムは、主話者とボットの双方の話者別特徴量を用いて、直近の対話状態および t+10/20/30 ms の近未来状態を予測し、相手の発話を意識した確率的予測として推定する。
1.14Mパラメータのモデルで、マルチクラスフレームレベルF1が82%、バックチャネルF1が70.6%、Final vs Others F1が69.3%、ターン検出の中央値遅延が36 msを達成しており、エッジデプロイに適している。

発表タイプ: 新規
概要: 私たちは、音声ベースの会話AI向けのリアルタイムフロントエンドを提示します。二者間のシナリオで自然なターンテーキングを可能にするため、主要話者のセグメンテーションと階層的 End-of-Turn（EOT）検出を組み合わせます。マルチ話者環境で堅牢に動作させるには、システムは継続的に主要ユーザーを特定・追跡し、下流の EOT 決定が背景の会話によって混乱されないようにします。追跡された活動セグメントは階層的で因果的な EOT モデルへ供給され、主要話者とボットの双方の話者別音声特徴を独立に分析することで、即時の会話状態を予測します。同時に、モデルは会話相手の音声を認識したうえで、近未来の状態 ( $t{+}10/20/30$ ms) を確率的予測を通じて予測します。タスク固有の知識蒸留は wav2vec~2.0 表現（768 D）を、効率的なデプロイのためのコンパクトな MFCC ベースの学生モデル（32 D）へ圧縮します。システムは、82% のマルチクラスフレームレベルF1と Backchannel 検出で 70.6% F1、Final vs. Others タスクの2値で 69.3% F1 を達成します。エンドツーエンドのターン検出ベンチマークでは、我々のモデルは Smart Turn v3 の 58.9% に対して 87.7% の recall を達成し、検出遅延の中央値を 36 ms に抑えつつ、800–1300 ms です。わずか 1.14 M パラメータしか使用せず、提案モデルはトランスフォーマーベースのベースラインと同等かそれ以上を達成しつつ、遅延とメモリ使用量を大幅に削減し、エッジデプロイメントに適しています。