要旨: 本論文では、音楽コンテンツを包括的に理解することを目的とした最先端(SoTA)の大規模マルチモーダルモデル(LMM)であるGaMMAを提案します。GaMMAは、LLaVAの合理化されたエンコーダ-デコーダ設計を継承しており、音楽と言語の間の効果的なクロスモーダル学習を可能にします。複数の専門家(mixture-of-experts)方式でオーディオエンコーダを組み込むことで、GaMMAは、時系列および非時系列の両方の音楽理解タスクを、単一のパラメータセットのもとで効果的に統合します。提案手法は、スケールに応じて慎重に厳選されたデータセットと、段階的な学習パイプラインを組み合わせることで、事前学習、教師あり微調整(SFT)、強化学習(RL)を通じて音楽理解の限界を実際に押し広げます。音楽LMMの時間的(temporal)および非時間的(non-temporal)能力の両方を包括的に評価するために、人手で厳選された多肢選択式の質問3,739問からなる、最大規模の音楽指向ベンチマークであるMusicBenchを導入します。大規模な実験の結果、GaMMAは音楽領域において新たなSoTAを確立し、MuchoMusicで79.1%、MusicBench-Temporalで79.3%、MusicBench-Globalで81.3%の精度を達成しました。さらに、一貫して従来手法を上回っています。
GaMMA:大規模マルチモーダルモデルによる共同的なグローバル・時間軸音楽理解に向けて
arXiv cs.AI / 2026/5/4
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- GaMMAは、音声の音楽信号と自然言語を共同で学習し、幅広い音楽理解を目指す新しい大規模マルチモーダルモデルである。
- 本モデルはLLaVAのシンプルなエンコーダ–デコーダ設計を土台にクロスモーダル学習を行い、さらに混合専門家(Mixture-of-Experts)の音声エンコーダを導入して、時間系列と非時間系列の両方の音楽タスクを同一パラメータで扱えるようにしている。
- GaMMAは、大規模な厳選データセットと、事前学習・教師あり微調整(SFT)・強化学習(RL)を段階的に進めるトレーニング手順で学習される。
- 時間軸能力とグローバル(非時間軸)能力の両方を評価するため、3,739問の人手で作られた多肢選択問題からなるMusicBenchを提案している。
- 実験では音楽領域で新たな最先端性能が示され、MuchoMusicで79.1%、MusicBench-Temporalで79.3%、MusicBench-Globalで81.3%を達成し、既存手法を一貫して上回る。



