HumMusQA: A Human-written Music Understanding QA Benchmark Dataset

arXiv cs.CL / 3/31/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • HumMusQAは、Large Audio-Language Models(LALMs)の「音楽理解」を評価するための新しいベンチマークデータセットで、専門的な音楽トレーニングを受けた人が手作業で320問を作成・検証した点が特徴です。
  • 既存のデータ手法が十分に音楽の知覚・解釈をテストできていないという問題意識に基づき、複雑なオーディオ理解を厳密に測る構成を提案しています。
  • データセットの有用性を示すために6つの最先端LALMをベンチマークし、モデルのパフォーマンスを比較しています。
  • さらに、単一モダリティの近道(uni-modal shortcuts)に対する頑健性もテストしており、ベンチマークとしての妥当性(真の音楽理解をしているか)の検証を重視しています。

Abstract

The evaluation of music understanding in Large Audio-Language Models (LALMs) requires a rigorously defined benchmark that truly tests whether models can perceive and interpret music, a standard that current data methodologies frequently fail to meet. This paper introduces a meticulously structured approach to music evaluation, proposing a new dataset of 320 hand-written questions curated and validated by experts with musical training, arguing that such focused, manual curation is superior for probing complex audio comprehension. To demonstrate the use of the dataset, we benchmark six state-of-the-art LALMs and additionally test their robustness to uni-modal shortcuts.