WavAlign：適応型ハイブリッド・ポストトレーニングで音声対話モデルの知能と表現力を高める

arXiv cs.AI / 2026/4/17

📰 ニュースModels & Research

共有:

要点

この論文は、エンドツーエンドの音声対話モデルはカスケード型よりも表現力が高いはずだが、多くのオープンソースモデルでは知能と表現力が期待に届いていないと指摘しています。
著者らは、音声対話モデルに選好最適化やRLをそのまま適用することが難しい理由を、報酬モデリングとロールアウト・サンプリングの観点から整理します。
「WavAlign」は、音声対話向けにRLを現実的にするためのモダリティ対応の適応型ポストトレーニング手法として提案されます。
WavAlignは選好更新をセマンティック（意味）チャネルに制約し、明示的なアンカリングで音響挙動を改善しつつ、ロールアウト統計に基づいて更新の混合比を動的に調整して信頼性の低い勾配を避けます。
複数の音声対話ベンチマークと代表的なアーキテクチャで評価した結果、意味の質と発話の表現力の両方で一貫した改善が確認されました。

概要: エンドツーエンドの音声対話モデルは、カスケード型システムよりも高い表現力や知覚能力の上限が期待できるため、大きな注目を集めてきました。しかし、現在のオープンソースの音声対話モデルにおける知能と表現力は、多くの場合期待を下回っています。他分野におけるオンライン強化学習(RL)の成功に動機づけられ、音声対話モデルに対して嗜好（プレファレンス）最適化を直接適用しようとすることも考えられますが、この移植は容易ではありません。本研究では、報酬モデリングとロールアウト（試行）サンプリングの観点から、これらの障害を分析し、とりわけ、共有パラメータの更新のもとで、疎な嗜好スーパービジョンが密な音声生成とどのように相互作用するかに焦点を当てます。分析に基づき、音声対話に対してRLを実用可能にする、モダリティ対応の適応的な事後学習（ポストトレーニング）レシピを提案します。この方法は、嗜好の更新を意味チャネルに制約し、明示的なアンカーリングによって音響挙動を改善するとともに、ロールアウト統計からそれらの混合比を動的に調整することで、信頼性の低い嗜好勾配を回避します。複数の音声対話ベンチマークと代表的なアーキテクチャにわたって手法を評価し、意味の質と音声の表現力の両面で一貫した改善が見られることを確認します。