直接的な選好最適化による日本語SpeechLLMsの発話適性を実現するアライメント

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、ASR で訓練されたエンコーダとテキストベースの LLM との間に不一致があることを指摘し、日本語の SpeechLLMs が出力する書き言葉風のテキストが自然な音声合成には適さないことを示しています。
好みに基づくアライメント手法を提案し、自然な音声として容易に合成できる、簡潔で対話的な出力を生み出します。
著者らは、ELYZA-tasks-100 から派生した日本語の話し言葉としての適性を評価するベンチマーク SpokenElyza を導入し、ネイティブ専門家による聴覚検証を行っています。
実験では SpokenElyza で顕著な改善を示す一方、元の書き言葉風評価での性能をほぼ維持しています。
日本語の音声対話システムに関する今後の研究を支援するため、SpokenElyza の公開を予定しています。

要旨: SpeechLLMsは通常、ASRで訓練されたエンコーダとテキストベースのLLMバックボーンを組み合わせるため、テキスト読み上げ合成には適さない書字風の出力パターンを継承してしまいます。この不一致は特に日本語で顕著で、話し言葉と書き言葉のレジスターは、丁寧表現の指標、文末助詞、構文の複雑さの点で著しく異なります。私たちは、日本語のSpeechLLMsを音声出力に適した形へ適応させるための、好みベースの整合アプローチを提案します。すなわち、要点を簡潔に、会話的で、自然な音声として容易に合成できるテキストです。このタスクを厳密に評価するために、ELYZA-tasks-100 から派生し、ネイティブ専門家による聴覚検証を取り入れた、日本語の音声適性を評価するベンチマーク SpokenElyza を導入します。実験の結果、我々のアプローチは SpokenElyza で大幅な改善を達成しつつ、元の書き言葉スタイルの評価における性能をほぼ維持することを示しました。私たちは、日本語の会話型対話システムの今後の研究を支援するため、SpokenElyza を公開します。