GaMMA：大規模マルチモーダルモデルによる共同的なグローバル・時間軸音楽理解に向けて

arXiv cs.AI / 2026/5/4

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

GaMMAは、音声の音楽信号と自然言語を共同で学習し、幅広い音楽理解を目指す新しい大規模マルチモーダルモデルである。
本モデルはLLaVAのシンプルなエンコーダ–デコーダ設計を土台にクロスモーダル学習を行い、さらに混合専門家（Mixture-of-Experts）の音声エンコーダを導入して、時間系列と非時間系列の両方の音楽タスクを同一パラメータで扱えるようにしている。
GaMMAは、大規模な厳選データセットと、事前学習・教師あり微調整（SFT）・強化学習（RL）を段階的に進めるトレーニング手順で学習される。
時間軸能力とグローバル（非時間軸）能力の両方を評価するため、3,739問の人手で作られた多肢選択問題からなるMusicBenchを提案している。
実験では音楽領域で新たな最先端性能が示され、MuchoMusicで79.1%、MusicBench-Temporalで79.3%、MusicBench-Globalで81.3%を達成し、既存手法を一貫して上回る。

要旨: 本論文では、音楽コンテンツを包括的に理解することを目的とした最先端（SoTA）の大規模マルチモーダルモデル（LMM）であるGaMMAを提案します。GaMMAは、LLaVAの合理化されたエンコーダ-デコーダ設計を継承しており、音楽と言語の間の効果的なクロスモーダル学習を可能にします。複数の専門家（mixture-of-experts）方式でオーディオエンコーダを組み込むことで、GaMMAは、時系列および非時系列の両方の音楽理解タスクを、単一のパラメータセットのもとで効果的に統合します。提案手法は、スケールに応じて慎重に厳選されたデータセットと、段階的な学習パイプラインを組み合わせることで、事前学習、教師あり微調整（SFT）、強化学習（RL）を通じて音楽理解の限界を実際に押し広げます。音楽LMMの時間的（temporal）および非時間的（non-temporal）能力の両方を包括的に評価するために、人手で厳選された多肢選択式の質問3,739問からなる、最大規模の音楽指向ベンチマークであるMusicBenchを導入します。大規模な実験の結果、GaMMAは音楽領域において新たなSoTAを確立し、MuchoMusicで79.1%、MusicBench-Temporalで79.3%、MusicBench-Globalで81.3%の精度を達成しました。さらに、一貫して従来手法を上回っています。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

残業時間が4割減特注設備メーカーがTeamsに独自AI、指示や理解を正確に

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

GaMMA：大規模マルチモーダルモデルによる共同的なグローバル・時間軸音楽理解に向けて

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

残業時間が4割減特注設備メーカーがTeamsに独自AI、指示や理解を正確に

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

残業時間が4割減 特注設備メーカーがTeamsに独自AI、指示や理解を正確に

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

残業時間が4割減特注設備メーカーがTeamsに独自AI、指示や理解を正確に