AI Navigate

マルチタスク強化学習を用いた音声LLMにおけるパラリンガスティック理解と生成の統合

arXiv cs.CL / 2026/3/18

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、学習データの不足とアノテーションの困難さに起因する音声LLMにおけるパラリンガスティック手掛かり(韻律、感情、非言語音)の活用上の課題、およびパラリンガスティック信号より語彙的ショートカットを利用するモデルの問題に対処する。
  • 本論文は、思考過程のプロンプトを用いたマルチタスク強化学習を導入し、明示的な感情推論を引き出すとともに、音声からの感情分類とパラリンガスティックを意識した応答生成を共同最適化する二段階パイプラインを備えた、パラリンガスティックに配慮した音声LLM(PALLM)を提案する。
  • 実験では、Expresso、IEMOCAP、RAVDESSのデータセットで、教師ありベースラインおよび強力なプロプライエタリモデル(Gemini-2.5-Pro、GPT-4o-audio)より8-12%の改善を示し、感情知能を備えた音声LLMのパラリンガスティック推論モデリングの重要性を強調する。
  • 結果は、明示的な感情推論を伴う多タスクRLが、感情的に知能を持つ音声AIシステムを構築する有望な方向であることを示唆している。

要旨: 音声大規模言語モデル(LLMs)は、韻律、感情、非言語的音などのパラリンガスティックな手掛かりを観察する。これらは意図の理解にとって極めて重要である。
しかし、これらの手掛かりを活用する際には、訓練データの不足、アノテーションの難しさ、パラリンガスティック信号より語彙的ショートカットを活用するモデルといった課題がある。
私たちは、思考の連鎖を促すプロンプティングを組み込んだマルチタスク強化学習(RL)を提案し、明示的な感情推論を引き出します。
データ不足に対処するため、音声からの感情分類とパラリンガスティック配慮のある応答生成を、2段階のパイプラインを通じて共同最適化するパラリンガスティック対応音声LLM(PALLM)を導入します。
実験は、我々のアプローチが、監督付きベースラインおよび強力な独自モデル(Gemini-2.5-Pro、GPT-4o-audio)を、Expresso、IEMOCAP、RAVDESSにおいて8~12%上回るパラリンガスティック理解の向上を示している。
結果は、多タスクRLを用いたパラリンガスティック推論のモデリングが、感情知能を備えた音声LLMを構築するうえで不可欠であることを示している。