AnimeScore: アニメ風の音声スタイルを評価するための嗜好ベースのデータセットとフレームワーク
arXiv cs.CL / 2026/3/13
💬 オピニオンTools & Practical UsageModels & Research
要点
- AnimeScoreは、対比較ランキングを用いた嗜好ベースのフレームワークを提案し、アニメ風の音声を評価します。絶対的なMOS風指標の欠如という課題に対処します。
- 本研究では、187名の評価者から自由形式の記述を含む15,000件の対比較評価を収集し、単純な音高だけでは捉えきれないニュアンスを捉えます。
- 音響分析は、アニメ風らしさが高い音高だけではなく、制御された共鳴の形成、韻律の連続性、そして意図的な発音によって生み出されることを示しています。
- 手作りの特徴量は69.3%のAUCに達し、SSLベースのランキングモデルは最大で90.8%のAUCを達成します。これにより、強力な予測性能と、生成音声最適化の報酬信号としての潜在能力が示されます。
- このデータセットとフレームワークは、アニメ風の音声を評価する実用的な指標を提供し、アニメ風ボイス生成の改善に道を示します。
要旨: 現在『アニメ風』の声の評価は費用のかかる主観判断に依存しており、標準化された客観指標は存在しません。大きな課題は、アニメ風が自然さとは異なり、共有された絶対スケールを欠くため、従来のMean Opinion Score (MOS)プロトコルが信頼できないことです。このギャップに対処するため、対比較ランキングを通じた自動的なアニメ風評価の嗜好ベースのフレームワーク「AnimeScore」を提案します。187名の評価者から自由形式の説明付きで15,000件の対比較判断を収集し、音響分析は、認識されるアニメ風らしさが単純な指標(例えば高音)ではなく、制御された共鳴形成、韻律の連続性、そして意図的な発音によって推進されることを示しています。我々は、手作りの音響特徴量が69.3%のAUCの天井に達し、SSLベースのランキングモデルが最大90.8%のAUCを達成することを示し、実用的な指標を提供するとともに、生成音声モデルの嗜好ベース最適化の報酬信号としても利用できることを示しています。
