UAF:フルデュプレックス音声対話のための統一型オーディオ・フロントエンドLLM

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、より自然で応答性の高い会話を目指して、フルデュプレックス音声対話向けに設計された統一型オーディオ・フロントエンドLLM「UAF」を提案しています。
  • 通常のエンドツーエンド音声LLM(多くがハーフデュプレックスで、VADやターンテイキングなどの別々のフロントエンド部品に依存しがち)とは異なり、UAFは複数のフロントエンド課題を1つの自己回帰的なトークン予測枠組みに統合します。
  • UAFはストリーミングの固定長オーディオ・チャンク(例:600ms)を入力とし、参照音声プロンプトで最初に対象話者を固定したうえで、意味内容と割り込み信号のようなシステム制御を含む離散トークンを逐次生成します。
  • 実験では、VAD、TD、話者認識、ASR、QAなど複数の音声フロントエンド課題で高い性能が報告され、さらに実運用の対話シナリオで応答レイテンシと割り込み精度が改善したとされています。
  • 本研究は、シームレスなフルデュプレックス対話を実現するには、バックエンドの統一モデルの進化と同じくらいフロントエンドの最適化が重要だと強調しています。

概要: 人間のコミュニケーションとして最も自然で直感的な形態である全二重の音声対話は、人工知能をより人間らしい会話システムへと押し進めています。従来のカスケード型の音声処理パイプラインは、蓄積される遅延、情報の損失、そしてモジュール間での誤り伝播といった重要な制約に悩まされています。これらの問題に対処するため、近年は主に音声理解と生成のタスクを統合するエンドツーエンドの音声大規模言語モデル(LLM)であるGPT-4oのような取り組みが注目されています。しかし、これらのモデルの多くは本質的に半二重であり、音声区間検出(VAD)やターンテイキング検出(TD)のような、タスク固有の別個のフロントエンド構成要素の組み合わせに依存しています。私たちが音声アシスタントを開発する中で、シームレスで応答性の高い対話を実現するには、バックエンドの統一モデルを進歩させることと同じくらい、音声フロントエンドの最適化が重要であることを観察しました。このギャップを埋めるために、全二重の音声システムに特化した、最初の統一音声フロントエンドLLM(UAF)を提案します。私たちのモデルは、VAD、TD、話者認識(SR)、自動音声認識(ASR)、質問応答(QA)を含む多様な音声フロントエンドタスクを、単一の自己回帰的な系列予測問題として再定式化します。入力としてストリーミングの固定長音声チャンク(例: 600 ms)を受け取り、最初に参照音声プロンプトを用いて対象話者をアンカーし、意味内容とシステムレベルの状態制御(例: 割り込み信号)の両方を符号化する離散トークンを回帰的に生成します。実験の結果、私たちのモデルは複数の音声フロントエンドタスクにおいて先行する性能を達成し、現実の対話シナリオにおける応答遅延と割り込み精度を大幅に改善することが示されました。