HumMusQA：人手で作成された音楽理解QAベンチマークデータセット

arXiv cs.CL / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

HumMusQAは、Large Audio-Language Models（LALMs）の「音楽理解」を評価するための新しいベンチマークデータセットで、専門的な音楽トレーニングを受けた人が手作業で320問を作成・検証した点が特徴です。
既存のデータ手法が十分に音楽の知覚・解釈をテストできていないという問題意識に基づき、複雑なオーディオ理解を厳密に測る構成を提案しています。
データセットの有用性を示すために6つの最先端LALMをベンチマークし、モデルのパフォーマンスを比較しています。
さらに、単一モダリティの近道（uni-modal shortcuts）に対する頑健性もテストしており、ベンチマークとしての妥当性（真の音楽理解をしているか）の検証を重視しています。

要旨: 大規模オーディオ-言語モデル（LALMs）における音楽理解の評価には、モデルが音楽を知覚し解釈できるかどうかを本当に検証する、厳密に定義されたベンチマークが必要です。しかし現状のデータ手法は、この基準を満たせていないことがしばしばあります。本論文では、音楽評価のための細部まで設計されたアプローチを提示し、音楽的訓練を受けた専門家によって収集・検証された、手書きの320問から成る新しいデータセットを提案します。また、複雑な音声理解を探るうえでは、このように焦点を絞った手作業によるキュレーションが優れていると主張します。データセットの使用方法を示すために、我々は6つの最先端のLALMsをベンチマークし、さらにユニモーダルなショートカットへの頑健性も追加で検証します。