MuQ-Eval：AI音楽生成評価のためのオープンソース・サンプル単位品質指標

arXiv cs.AI / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、Fréchet Audio Distanceのような分布（ディストリビューション）レベルの既存指標における限界を踏まえ、個々のAI生成音楽クリップを評価するための、完全にオープンソースなサンプル単位の品質指標 MuQ-Eval を提案する。
MuQ-Eval は、MusicEvalデータ（31のテキストから音楽へのシステムが生成したクリップ）と専門家による人手の品質評価を用いて、凍結した MuQ-310M の特徴に対して軽量な予測ヘッドを学習する。
最も単純な構成（凍結特徴＋注意プーリング＋小規模な2層MLP）でも、人間の判断との強い相関が得られる（システム単位 SRCC 0.957、発話（アナウンス）単位 SRCC 0.838）。
アブレーション結果から、追加の学習目的や適応戦略を加えても、凍結ベースラインを超える改善は見られず、エンコーダの選択が支配的な要因であることが示される。
著者らは、LoRAで適応した派生手法が、パーソナライズされた評価者に対しては最小150クリップ程度でも実用的な相関に到達できること、またこの指標は音楽構造の歪みに比べて信号レベルのアーティファクトに対してより敏感であることを示す。さらに、単一の一般向けGPU上でリアルタイム動作が可能である。