要旨: エンドツーエンドのフル二重スピーチ言語モデル(SLM)は、自然な対話のために正確なターンテイキングを必要とします。しかし、標準的な生のトークン強化学習(RL)によって時間的ダイナミクスを最適化すると、セマンティックな質が劣化し、深刻な生成崩壊と反復が引き起こされます。私たちは、いつ話すかを何を話すかから明示的に切り離す、インタラクティビティ最適化のRLフレームワークASPIRinを提案します。Action Space Projectionを用いて、ASPIRinはテキストの語彙を、粗い粒度の二値状態(発話中 vs. 非発話の無音)へと写像します。ルールベースの報酬でGroup Relative Policy Optimization(GRPO)を適用することで、ユーザの割り込みと応答の遅延のバランスを取ります。実験的評価により、ASPIRinはターンテイキング、バックスチャネリング、ポーズ処理にわたってインタラクティビティを最適化することが示されています。重要なのは、タイミングをトークン選択から分離することでセマンティックな一貫性が保たれ、標準的なGRPOと比べて重複するn-gramの割合を50%以上削減し、退行的な反復を実質的に解消する点です。
ASPIRin:フルデュプレックス音声言語モデルにおけるインタラクティビティ最適化のための強化学習アクション空間射影
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エンドツーエンドのフルデュプレックス音声言語モデルに対する標準的な生トークンの強化学習が、時間的ダイナミクスを損なう可能性があり、その結果として意味の劣化、反復、生成の崩壊(ジェネレーティブ・コラプス)につながり得ると主張する。
- タイミング制御(話すべきか/沈黙すべきか)と内容生成(何を言うか)を明示的に分離する、インタラクティビティ最適化のためのRLフレームワークASPIRinを提案する。
- ASPIRinは、Action Space Projectionによりテキストの語彙を、能動的な発話と非活動な沈黙を表す粗い二値状態に変換し、そのうえでルールベースの報酬を用いてGroup Relative Policy Optimization(GRPO)を適用する。
- 実験結果から、ASPIRinはターンテイキング、バ ックチャネル、ポーズの扱いにおけるインタラクティビティを改善し、標準的なGRPOと比べて重複するn-gramを50%以上大幅に削減することが示される。
- 要点は、タイミングをトークン選択から切り離すことで意味の整合性を維持し、退化的な反復挙動を緩和できるという点である。


