要旨: 大規模における話者検証は、固定マージン損失が品質にかかわらずすべてのサンプルを等しく扱うため、いまだオープンな課題である。誤ってラベル付けされた、または劣化したサンプルがノイズの多い勾配を導入し、コンパクトな話者マニフォールドを破壊することであると仮説を立てる。補助的な注釈なしで、Curry(CURriculum Ranking)という適応損失を提案する。これはSub-center ArcFaceによって、支配的なサブセンターのコサイン類似度から得られる信頼度スコアを用いて、サンプルの難易度をオンラインで推定し、実行中のバッチ統計によりサンプルを「易・中・難」の層にランク付けする。学習可能な重みが、安定したアイデンティティの基礎から、マニフォールドの洗練、そして境界の鋭化へとモデルを導く。私たちの知る限り、これはこれまでで最大規模の話者検証システムである。VoxCeleb1-O、およびSITWで評価したところ、CurryはSub-center ArcFaceのベースラインに対してEERをそれぞれ86.8 extbackslash%、60.0 extbackslash%低減し、不完全な大規模データに対する頑健な話者検証の新しいパラダイムを確立した。
何を、いつ学ぶべきか:大規模話者検証のためのCURriculum Ranking Loss
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、固定マージンの話者検証損失が、誤ラベルや劣化したサンプルによって損なわれ得ると主張している。これは、ノイズの入った勾配を注入し、コンパクトな話者マニフォールドを崩すためである。
- Sub-center ArcFace による主要サブセンターのコサイン類似度から得られる信頼度にもとづいて、各サンプルの難しさをオンライン推定する適応的なカリキュラム・ランキング損失である Curry(CURriculum Ranking)を提案する。これにより、実行中のバッチ統計を用いてサンプルを easy / medium / hard の3段階にグルーピングする。
- 本手法では、補助注釈を必要とせずに、安定したアイデンティティ学習から後段のマニフォールド精緻化や境界のシャープ化へとトレーニングを導くために、学習可能な重みを用いる。
- VoxCeleb1-O と SITW における実験では、Sub-center ArcFace 基線に対して大幅な EER(等誤り率)の低下を報告している。86.8% および 60.0% の改善がそれぞれ主張されている。
- 著者らはさらに、Curry がこれまで報告されてきた最大規模の話者検証トレーニングシステムの一部であるとも主張しており、不完全な大規模データセットに対して頑健な性能を目指している。