OmniACBench: A Benchmark for Evaluating Context-Grounded Acoustic Control in Omni-Modal Models

arXiv cs.CL / 3/26/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • OmniACBenchは、音声指示・テキスト台本・画像という入力から、台本を“声として”適切なトーンや様式で読み上げられるかを評価するオムニモーダル用ベンチマークとして提案されました。
  • ベンチマークは6つの音響特徴(話速、発声法、発音、感情、グローバルアクセント、音色)を対象に計3,559件の検証済みインスタンスで構成されています。
  • 8つの既存モデルを広範に実験した結果、従来のテキスト出力中心の評価で高性能でも、本設定(文脈に根ざした音声生成)では限界が見られました。
  • ボトルネックは各モダリティの処理ではなく、マルチモーダル文脈を統合して忠実な音声生成を行う点にあることが示されています。
  • 失敗パターンとして「弱い直接制御」「暗黙推論の失敗」「マルチモーダル根拠付けの失敗」が特定され、音声で応答できるモデル設計への示唆が提示されています。

Abstract

Most testbeds for omni-modal models assess multimodal understanding via textual outputs, leaving it unclear whether these models can properly speak their answers. To study this, we introduce OmniACBench, a benchmark for evaluating context-grounded acoustic control in omni-modal models. Given a spoken instruction, a text script, and an image, a model must read the script aloud with an appropriate tone and manner. OmniACBench comprises 3,559 verified instances covering six acoustic features: speech rate, phonation, pronunciation, emotion, global accent, and timbre. Extensive experiments on eight models reveal their limitations in the proposed setting, despite their strong performance on prior textual-output evaluations. Our analyses show that the main bottleneck lies not in processing individual modalities, but in integrating multimodal context for faithful speech generation. Moreover, we identify three common failure modes-weak direct control, failed implicit inference, and failed multimodal grounding-providing insights for developing models that can verbalize responses effectively.