Sommelier：フルデュプレックス音声言語モデルのための、大規模なオープンなマルチターン音声前処理

arXiv cs.AI / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストLLMから音声言語モデル（SLM）への移行が、リアルタイムのフルデュプレックス対話システムに対する強い需要を生むと主張している。
主要なボトルネックとして、質の高い複数話者・複数ターンの対話データが不足している一方で、既存の大規模リソースは多くが単一話者であるか、規模が小さすぎる点を指摘している。
話者の発話が重なり合い、バックスチャネル（相づち）が発生することで、標準的な処理パイプラインが機能不全に陥り、話者分離（diarization）の誤りやASRのハルシネーション（幻覚的な出力）が生じることを強調している。
フルデュプレックス音声言語モデルの学習および評価のためにデータをより適切に準備することを目的とした、オープンソースで大規模にスケール可能なマルチターン音声前処理パイプラインを提案している。

要旨: AIのパラダイムが、テキストベースのLLMから音声言語モデル（SLM）へと移行するにつれ、リアルタイムで自然な人間—コンピュータ相互作用を実現できるフルデュプレックス・システムへの需要が高まっています。しかし、そのようなモデルの開発は、高品質な複数話者による会話データが乏しいことによって制約されています。既存の大規模リソースは主に単一話者であるか、量が限られているためです。重複やバックチャネリングといった自然対話の複雑なダイナミクスに対処することは課題であり、標準的な処理パイプラインではダイアライゼーションの誤りやASRの幻覚（hallucination）によって問題が生じます。このギャップを埋めるために、私たちはフルデュプレックス・モデル向けの堅牢でスケーラブルなオープンソースのデータ処理パイプラインを提示します。