要旨: 大規模オーディオ-言語モデル(LALMs)における音楽理解の評価には、モデルが音楽を知覚し解釈できるかどうかを本当に検証する、厳密に定義されたベンチマークが必要です。しかし現状のデータ手法は、この基準を満たせていないことがしばしばあります。本論文では、音楽評価のための細部まで設計されたアプローチを提示し、音楽的訓練を受けた専門家によって収集・検証された、手書きの320問から成る新しいデータセットを提案します。また、複雑な音声理解を探るうえでは、このように焦点を絞った手作業によるキュレーションが優れていると主張します。データセットの使用方法を示すために、我々は6つの最先端のLALMsをベンチマークし、さらにユニモーダルなショートカットへの頑健性も追加で検証します。
HumMusQA:人手で作成された音楽理解QAベンチマークデータセット
arXiv cs.CL / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- HumMusQAは、Large Audio-Language Models(LALMs)の「音楽理解」を評価するための新しいベンチマークデータセットで、専門的な音楽トレーニングを受けた人が手作業で320問を作成・検証した点が特徴です。
- 既存のデータ手法が十分に音楽の知覚・解釈をテストできていないという問題意識に基づき、複雑なオーディオ理解を厳密に測る構成を提案しています。
- データセットの有用性を示すために6つの最先端LALMをベンチマークし、モデルのパフォーマンスを比較しています。
- さらに、単一モダリティの近道(uni-modal shortcuts)に対する頑健性もテストしており、ベンチマークとしての妥当性(真の音楽理解をしているか)の検証を重視しています。




