OmniACBench:オムニモーダルモデルにおける文脈に根ざした音響制御を評価するためのベンチマーク

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • OmniACBenchは、音声指示・テキスト台本・画像という入力から、台本を“声として”適切なトーンや様式で読み上げられるかを評価するオムニモーダル用ベンチマークとして提案されました。
  • ベンチマークは6つの音響特徴(話速、発声法、発音、感情、グローバルアクセント、音色)を対象に計3,559件の検証済みインスタンスで構成されています。
  • 8つの既存モデルを広範に実験した結果、従来のテキスト出力中心の評価で高性能でも、本設定(文脈に根ざした音声生成)では限界が見られました。
  • ボトルネックは各モダリティの処理ではなく、マルチモーダル文脈を統合して忠実な音声生成を行う点にあることが示されています。
  • 失敗パターンとして「弱い直接制御」「暗黙推論の失敗」「マルチモーダル根拠付けの失敗」が特定され、音声で応答できるモデル設計への示唆が提示されています。