要旨: 最近の音声・マルチモーダル大規模言語モデル(Audio MLLMs)は、音声ベンチマークで卓越した性能を示していますが、これらのモデルが本当に音響信号を処理しているのか、それともテキストベースの意味推論に依存しているのかはまだ不明です。この問いを体系的に検討するため、DEAF(Diagnostic Evaluation of Acoustic Faithfulness)を導入します。これは、3つの音響的次元(感情的プロソディ、背景音、話者識別情報)にまたがる2,700件超の対立刺激から成るベンチマークです。次に、内容の意味的対立から誤解を招くプロンプトとその組み合わせに至るまで、テキストの影響を段階的に高めていく統制された多層評価フレームワークを設計し、内容主導のバイアスとプロンプト誘導の迎合性を分離できるようにします。さらに、音響信号よりもテキスト手掛かりに対するモデルの依存度を定量化する診断指標を導入します。我々の7つの Audio MLLMs の評価は、テキスト支配の一貫したパターンを示しています。すなわち、モデルは音響的変化には敏感である一方、予測は主にテキスト入力によって左右され、標準的な音声ベンチマークでの高い性能と真の音響理解との間にギャップがあることが明らかになりました。
DEAF: 音声言語モデルにおける音響忠実性の診断的評価のベンチマーク
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、音声を含むマルチモーダル大規模言語モデル(Audio MLLMs)の音響忠実性を診断的に評価するためのベンチマーク「DEAF」を提案する。感情プロソディ、背景音、話者の同一性にわたる約2,700件の対立刺激を特徴とする。
- テキストの影響を段階的に高めることで、内容主導の偏りとプロンプト誘導の迎合を分離する、制御された多段階評価フレームワークを提示する。
- テキスト手がかりと音響信号へのモデルの依存度を定量化する診断指標を定義する。
- 7つの Audio MLLMs の評価は、テキスト優位のパターンを示す。モデルは音響的変化には敏感だが、予測は主にテキスト入力により駆動されており、ベンチマークの性能と真の音響理解との間にギャップがあることを示唆している。
関連記事
Day 10: 230 Sessions of Hustle and It Comes Down to One Person Reading a Document
Dev.to

5 Dangerous Lies Behind Viral AI Coding Demos That Break in Production
Dev.to
Two bots, one confused server: what Nimbus revealed about AI agent identity
Dev.to

OpenTelemetry just standardized LLM tracing. Here's what it actually looks like in code.
Dev.to
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark forFinance
Dev.to