EmoTransCap:談話における感情遷移を考慮した音声キャプション化のためのデータセットとパイプライン

arXiv cs.CL / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文はEmoTransCapを提案し、孤立した発話の中で静的な単一感情を扱う従来の枠を超えて、談話レベルの感情遷移を捉える音声キャプション化を目指します。
  • 感情遷移を明示的に収集する大規模データセットをスケール可能に構築するため、自動化されたデータ作成パイプラインを設計しています。
  • Multi-Task Emotion Transition Recognition(MTETR)モデルにより、感情遷移の検出と話者分離(diarization)を共同で行う仕組みを示します。
  • さらに、LLMによる意味解析を用いて記述型・指示型の2種類のアノテーションを生成し、談話レベルで制御可能な感情遷移対応の音声合成システムも提示します。

概要: 感情の知覚と適応的な表出は、人とエージェントのインタラクションにおける基本的な能力である。近年、音声感情キャプショニング(SEC)の進展により、きめ細かな感情のモデリングが改善された一方で、既存のシステムは孤立した文の中での静的で単一の感情の特徴づけにとどまっており、談話レベルでの動的な感情遷移は見過ごされている。このギャップに対処するため、本研究では、時間的な感情ダイナミクスと談話レベルの音声記述を統合するパラダイムである、Emotion Transition-Aware Speech Captioning(EmoTransCap)を提案する。感情遷移に富んだデータセットを構築しつつ、拡張を大規模に可能にするため、データセット作成の自動化パイプラインを設計する。談話レベルの感情遷移を明示的に捉えることを目的として設計された、初の大規模データセットである。意味的に豊かな記述を生成するために、談話レベルの音声から得られる音響的属性と時間的手がかりを取り入れる。マルチタスク感情遷移認識(MTETR)モデルは、感情遷移の検出とダイアライゼーションを共同で実行する。LLMの意味解析能力を活用し、注釈を2種類、すなわち記述的版と指示指向版の形で作成する。これらのデータと注釈は、感情の知覚と感情的な表出力の向上を進めるうえで貴重なリソースとなる。データセットは、感情の遷移を捉える音声キャプションを可能にし、時間的ダイナミクスに基づく、きめ細かな感情理解を促進する。さらに、談話レベルにおける、制御可能で遷移に配慮した感情音声合成システムも導入し、人間らしい感情的表出力を高め、感情面に配慮した会話エージェントを支援する。