HumMusQA: A Human-written Music Understanding QA Benchmark Dataset
arXiv cs.CL / 3/31/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- HumMusQAは、Large Audio-Language Models(LALMs)の「音楽理解」を評価するための新しいベンチマークデータセットで、専門的な音楽トレーニングを受けた人が手作業で320問を作成・検証した点が特徴です。
- 既存のデータ手法が十分に音楽の知覚・解釈をテストできていないという問題意識に基づき、複雑なオーディオ理解を厳密に測る構成を提案しています。
- データセットの有用性を示すために6つの最先端LALMをベンチマークし、モデルのパフォーマンスを比較しています。
- さらに、単一モダリティの近道(uni-modal shortcuts)に対する頑健性もテストしており、ベンチマークとしての妥当性(真の音楽理解をしているか)の検証を重視しています。



