SpeechParaling-Bench:段階的に難易度を高めた、段外(パラリンガル)要素に対応する音声生成の包括的ベンチマーク
arXiv cs.CL / 2026/4/23
📰 ニュースModels & Research
要点
- この論文では、大規模オーディオ言語モデル(LALM)における「段外(パラリンガル)要素を踏まえた音声生成」を評価するための新しいベンチマークSpeechParaling-Benchを提案し、特徴カバレッジ不足と評価の主観性という課題に取り組む。
- 既存の「50未満」から「100超」のきめ細かな特徴へとカバレッジを拡大し、さらに1,000件超の英語-中国語の並列音声クエリを用意して、課題は微細制御・発話内変動・文脈適応の3段階で構成される。
- 評価の信頼性を高めるために、固定されたベースラインに対して候補応答をLALMベースのジャッジが比較するペア比較パイプラインを開発し、絶対点ではなく相対的な嗜好で評価することで主観性と人的アノテーションのコストを抑える。
- 実験の結果、現在のLALMには大きな弱点があることが分かり、強力なプロプライエタリモデルでさえ、パラリンガル特徴の包括的な静的制御や動的なモジュレーションが難しいほか、状況対話における誤りの43.3%はパラリンガル要素の解釈ミスに起因する。
- 以上より、人間により整合する音声アシスタントの実現に向けて、パラリンガル要素をより頑健にモデリングする必要があることが示される。



