SongBench:歌の品質評価のためのきめ細かなマルチアスペクト・ベンチマーク

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テキストから歌を生成した出力を、プロ仕様の細かな観点で評価するための専用ベンチマーク「SongBench」を提案している。
  • SongBenchは、Vocal(歌声)、Instrument(楽器)、Melody(メロディ)、Structure(構成)、Arrangement(編曲)、Mixing(ミキシング)、Musicality(音楽性)の7つの次元を対象とし、既存ベンチマークでは捉えにくい多面的なニュアンスを評価することを狙っている。
  • 著者らは、最先端のテキスト・トゥ・ソング生成モデルが生成した11,717サンプルからなる、音楽プロによる専門家アノテーション付きデータベースを構築した。
  • 実験結果では、SongBenchが専門家の評価と高い相関を示しており、信頼できる診断ツールになり得ることが示されている。
  • このベンチマークにより、現行の最先端モデルの弱点が細かな粒度で明らかになり、より一貫性の高い、プロらしい歌生成へ向けた開発の指針となる。

要旨: テキストから歌への生成における近年の進歩により、現実的な音楽コンテンツの生成が可能になっている。しかし、既存の評価ベンチマークには、多次元の美的ニュアンスを捉えるための専門的な粒度が欠けている。本論文では、7つの主要な次元、すなわち「ボーカル」「インストゥルメント」「メロディ」「構造」「アレンジ」「ミキシング」「音楽性」にわたって、きめ細かな歌の評価を行うための特化フレームワークであるSongBenchを提案する。このフレームワークを用いて、最先端モデルからの11,717サンプルで構成される、専門家による注釈付きデータベースを構築する。データには音楽の専門家によってラベル付けを行う。大規模な実験結果により、SongBenchが専門家の評価と高い相関を達成することを示す。現在の最先端モデルにおける、きめ細かなパフォーマンス上の差分を明らかにすることで、SongBenchは、より専門的で音楽的に首尾一貫した歌の生成へと開発を導くための診断用ベンチマークとして機能する。