概要: 堅牢なタスク指向の音声対話エージェントは、人々が音声を用いて相互作用する全ての多様性に触れる必要があります。これに対処するには、音声ユーザー行動を網羅する大規模な音声タスク指向対話(TOD)データが必要ですが、既存のデータセットは規模とドメインカバー範囲が限られており、それらを拡張する体系的なパイプラインはありません。これに対処するため、\textbf{SpokenTOD}、52,390対話と1,034時間の音声を、さまざまな話者とドメインにわたって、4つの話者挙動 -- ターン間スロット、割り込み、流暢さの乱れ、感情的抑揚 -- を付加した音声TODデータセットを導入します。SpokenTODを基に、\textbf{SpokenUS} を提示します。これはTODに基づく音声ユーザーシミュレータで、割り込み専用のアーキテクチャを備えています。SpokenUSは、はるかに大規模なモデルと同等の目標カバレッジを達成しつつ、Human MOS で全ベースラインを大幅に上回り、対話全体を通じてスロット値を人間が行うように段階的に開示します。さらに分析すると、SpokenUS の話者挙動は下流のエージェントに対して意味のある課題を投げかけることが確認され、より堅牢な音声対話システムの訓練と評価に実用的なツールとなります。
SpokenUS: タスク指向対話のための音声ユーザーシミュレーター
arXiv cs.CL / 2026/3/18
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は、データ規模とドメインのカバー範囲の制約を解決する、52,390の対話と1,034時間の音声を含む大規模な音声タスク指向対話データセット「SpokenTOD」を紹介する。
- SpokenTOD には、ターンをまたぐスロット、割り込み発話、流暢性の乱れ、感情的韻律という4つの話者の音声ユーザー行動が含まれており、さまざまな話者と領域にわたって捉えられている。
- SpokenTOD を基盤に、SpokenUS はタスク指向対話のための音声ユーザーシミュレーターであり、割り込みを処理するよう設計されたアーキテクチャを特徴とする。
- SpokenUS は、はるかに大規模なモデルと同等のゴールカバレッジを達成しつつ、人間の MOS(Mean Opinion Score)でベースラインを上回り、対話全体を通じてスロット値を徐々に開示することを示している。
- 分析は、SpokenUS の音声行動が下流のエージェントに有意義な課題を与え、より堅牢な音声対話システムの訓練と評価の実用的なツールとなることを示している。
