SpeechParaling-Bench:段階的に難易度を高めた、段外(パラリンガル)要素に対応する音声生成の包括的ベンチマーク

arXiv cs.CL / 2026/4/23

📰 ニュースModels & Research

要点

  • この論文では、大規模オーディオ言語モデル(LALM)における「段外(パラリンガル)要素を踏まえた音声生成」を評価するための新しいベンチマークSpeechParaling-Benchを提案し、特徴カバレッジ不足と評価の主観性という課題に取り組む。
  • 既存の「50未満」から「100超」のきめ細かな特徴へとカバレッジを拡大し、さらに1,000件超の英語-中国語の並列音声クエリを用意して、課題は微細制御・発話内変動・文脈適応の3段階で構成される。
  • 評価の信頼性を高めるために、固定されたベースラインに対して候補応答をLALMベースのジャッジが比較するペア比較パイプラインを開発し、絶対点ではなく相対的な嗜好で評価することで主観性と人的アノテーションのコストを抑える。
  • 実験の結果、現在のLALMには大きな弱点があることが分かり、強力なプロプライエタリモデルでさえ、パラリンガル特徴の包括的な静的制御や動的なモジュレーションが難しいほか、状況対話における誤りの43.3%はパラリンガル要素の解釈ミスに起因する。
  • 以上より、人間により整合する音声アシスタントの実現に向けて、パラリンガル要素をより頑健にモデリングする必要があることが示される。

Abstract

準言語的手がかりは自然な人間—コンピュータ相互作用に不可欠である一方で、大規模音声—言語モデル(LALM)におけるその評価は、粗い特徴のカバレッジと、評価の本質的な主観性によって依然として限られています。これらの課題に対処するために、本稿では準言語に配慮した音声生成のための包括的なベンチマークであるSpeechParaling-Benchを提案します。これは、既存のカバレッジを50未満から100超のよりきめ細かな特徴へと拡張し、さらに1,000件を超える英語—中国語の並列音声クエリによって支えられており、3つの段階的に難易度が上がるタスク(きめ細かな制御、発話内の多様性、文脈に応じた適応)として整理されています。信頼できる評価を可能にするために、我々はペアワイズ比較パイプラインも併せて開発します。これは、候補となる応答をLALMベースの判定者が固定されたベースラインと比較して評価するものです。評価を絶対的なスコア付けではなく相対的な嗜好として枠組み化することで、この手法は主観性を軽減し、コストのかかる人手による注釈なしに、より安定的でスケーラブルな評価を実現します。大規模な実験の結果、現行のLALMには顕著な限界があることが明らかになりました。たとえ主要な市販(プロプライエタリ)モデルであっても、準言語特徴の包括的な静的制御や動的なモジュレーションを十分にこなすのは難しく、また、準言語的手がかりを状況対話の中で正しく解釈できないことが、誤りの43.3%を占めています。これらの知見は、人間に整合した音声アシスタントに向けて、より頑健な準言語のモデリングが必要であることを強調しています。