要旨: 音声大規模言語モデル(LLMs)は、韻律、感情、非言語的音などのパラリンガスティックな手掛かりを観察する。これらは意図の理解にとって極めて重要である。
しかし、これらの手掛かりを活用する際には、訓練データの不足、アノテーションの難しさ、パラリンガスティック信号より語彙的ショートカットを活用するモデルといった課題がある。
私たちは、思考の連鎖を促すプロンプティングを組み込んだマルチタスク強化学習(RL)を提案し、明示的な感情推論を引き出します。
データ不足に対処するため、音声からの感情分類とパラリンガスティック配慮のある応答生成を、2段階のパイプラインを通じて共同最適化するパラリンガスティック対応音声LLM(PALLM)を導入します。
実験は、我々のアプローチが、監督付きベースラインおよび強力な独自モデル(Gemini-2.5-Pro、GPT-4o-audio)を、Expresso、IEMOCAP、RAVDESSにおいて8~12%上回るパラリンガスティック理解の向上を示している。
結果は、多タスクRLを用いたパラリンガスティック推論のモデリングが、感情知能を備えた音声LLMを構築するうえで不可欠であることを示している。
マルチタスク強化学習を用いた音声LLMにおけるパラリンガスティック理解と生成の統合
arXiv cs.CL / 2026/3/18
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、学習データの不足とアノテーションの困難さに起因する音声LLMにおけるパラリンガスティック手掛かり(韻律、感情、非言語音)の活用上の課題、およびパラリンガスティック信号より語彙的ショートカットを利用するモデルの問題に対処する。
- 本論文は、思考過程のプロンプトを用いたマルチタスク強化学習を導入し、明示的な感情推論を引き出すとともに、音声からの感情分類とパラリンガスティックを意識した応答生成を共同最適化する二段階パイプラインを備えた、パラリンガスティックに配慮した音声LLM(PALLM)を提案する。
- 実験では、Expresso、IEMOCAP、RAVDESSのデータセットで、教師ありベースラインおよび強力なプロプライエタリモデル(Gemini-2.5-Pro、GPT-4o-audio)より8-12%の改善を示し、感情知能を備えた音声LLMのパラリンガスティック推論モデリングの重要性を強調する。
- 結果は、明示的な感情推論を伴う多タスクRLが、感情的に知能を持つ音声AIシステムを構築する有望な方向であることを示唆している。
関連記事
EU AI Act適合性のために11,529台のMCPサーバをスキャンしました
Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA