MuQ-Eval:AI音楽生成評価のためのオープンソース・サンプル単位品質指標

arXiv cs.AI / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、Fréchet Audio Distanceのような分布(ディストリビューション)レベルの既存指標における限界を踏まえ、個々のAI生成音楽クリップを評価するための、完全にオープンソースなサンプル単位の品質指標 MuQ-Eval を提案する。
  • MuQ-Eval は、MusicEvalデータ(31のテキストから音楽へのシステムが生成したクリップ)と専門家による人手の品質評価を用いて、凍結した MuQ-310M の特徴に対して軽量な予測ヘッドを学習する。
  • 最も単純な構成(凍結特徴+注意プーリング+小規模な2層MLP)でも、人間の判断との強い相関が得られる(システム単位 SRCC 0.957、発話(アナウンス)単位 SRCC 0.838)。
  • アブレーション結果から、追加の学習目的や適応戦略を加えても、凍結ベースラインを超える改善は見られず、エンコーダの選択が支配的な要因であることが示される。
  • 著者らは、LoRAで適応した派生手法が、パーソナライズされた評価者に対しては最小150クリップ程度でも実用的な相関に到達できること、またこの指標は音楽構造の歪みに比べて信号レベルのアーティファクトに対してより敏感であることを示す。さらに、単一の一般向けGPU上でリアルタイム動作が可能である。