記述的音声品質評価のキャリブレーション-推論フレームワーク

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、記述的音声品質評価のために、予め定義された知覚次元を予測するよう音声基盤モデルを調整するキャリブレーション段階を提示する。
  • また、次元特異的報酬を用いた Group Relative Policy Optimization (GRPO) に基づく強化学習段階を導入し、説明の精度と品質問題の時間的局在を向上させる。
  • このアプローチは、QualiSpeech での平均 PCC 0.71、RLベースの推論による MOS予測の13%改善など、最先端の結果を達成する。
  • この手法は、オーディオアーティファクトのより細粒度な検出と時間的局在を可能にし、説明可能な音声品質評価を進展させる。
  • 本研究は、キャリブレーションと RL ベースの推論が、音声品質分析のために大規模言語モデルを適応させ得ることを示している。
要旨: 説明可能な音声品質評価には、Mean Opinion Scores(MOS)を超えて、基礎となる知覚次元を分析することが求められる。これに対処するため、基盤となる Audio Large Language Model を多次元的推論、音声アーティファクトの検出と分類のために調整する新しいポスト訓練手法を導入する。第一に、キャリブレーション段階はモデルを事前に定義された知覚次元を予測するように合わせる。第二に、GRPO(Group Relative Policy Optimization)を用いた次元特異的報酬による強化学習段階が、説明の正確さと品質問題の時間的局在を大幅に高める。このアプローチにより、多次元の QualiSpeech ベンチマークで平均 PCC スコア 0.71、RL ベースの推論による MOS 予測の 13% 改善という最先端の結果を達成した。さらに、我々の細粒度の GRPO 報酬は、時間的にアーティファクトを正確に特定・分類するモデルの能力を著しく向上させる。