マルチタスク強化学習を用いた音声LLMにおけるパラリンガスティック理解と生成の統合

arXiv cs.CL / 2026/3/18

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、学習データの不足とアノテーションの困難さに起因する音声LLMにおけるパラリンガスティック手掛かり（韻律、感情、非言語音）の活用上の課題、およびパラリンガスティック信号より語彙的ショートカットを利用するモデルの問題に対処する。
本論文は、思考過程のプロンプトを用いたマルチタスク強化学習を導入し、明示的な感情推論を引き出すとともに、音声からの感情分類とパラリンガスティックを意識した応答生成を共同最適化する二段階パイプラインを備えた、パラリンガスティックに配慮した音声LLM（PALLM）を提案する。
実験では、Expresso、IEMOCAP、RAVDESSのデータセットで、教師ありベースラインおよび強力なプロプライエタリモデル（Gemini-2.5-Pro、GPT-4o-audio）より8-12%の改善を示し、感情知能を備えた音声LLMのパラリンガスティック推論モデリングの重要性を強調する。
結果は、明示的な感情推論を伴う多タスクRLが、感情的に知能を持つ音声AIシステムを構築する有望な方向であることを示唆している。

要旨: 音声大規模言語モデル（LLMs）は、韻律、感情、非言語的音などのパラリンガスティックな手掛かりを観察する。これらは意図の理解にとって極めて重要である。
しかし、これらの手掛かりを活用する際には、訓練データの不足、アノテーションの難しさ、パラリンガスティック信号より語彙的ショートカットを活用するモデルといった課題がある。
私たちは、思考の連鎖を促すプロンプティングを組み込んだマルチタスク強化学習（RL）を提案し、明示的な感情推論を引き出します。
データ不足に対処するため、音声からの感情分類とパラリンガスティック配慮のある応答生成を、2段階のパイプラインを通じて共同最適化するパラリンガスティック対応音声LLM（PALLM）を導入します。
実験は、我々のアプローチが、監督付きベースラインおよび強力な独自モデル（Gemini-2.5-Pro、GPT-4o-audio）を、Expresso、IEMOCAP、RAVDESSにおいて8～12％上回るパラリンガスティック理解の向上を示している。
結果は、多タスクRLを用いたパラリンガスティック推論のモデリングが、感情知能を備えた音声LLMを構築するうえで不可欠であることを示している。

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

マルチタスク強化学習を用いた音声LLMにおけるパラリンガスティック理解と生成の統合

要点

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer