要約: 音声スプーフィング検出の性能は、訓練データセットと評価データセットが異なる場合によく変動します。複数のコーパスを活用することは、話者認識や音声認識の分野で通常、頑健性と性能を高めます。しかし、我々の音声スプーフィング検出実験では、マルチコーパス訓練が一貫して性能を改善するとは限らず、むしろ低下させる可能性があります。データセット特有のバイアスが汎化を妨げ、性能の不安定さを招くと仮説を立てています。これに対処するため、学習埋め込み中のコーパス特異的情報を最小化することを目的とした、不変ドメイン特徴抽出(IDFE)フレームワークを、マルチタスク学習と勾配反転層を用いて提案します。IDFEフレームワークは、ベースラインと比較して平均EERを20%低減し、4つの異なるデータセットで評価されました。
SSLベースのなりすまし検出モデルにおけるマルチコーパス訓練の強化:ドメイン不変特徴抽出
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、SSLベースのなりすまし検出モデルにおけるマルチコーパス訓練を検討し、データセット固有のバイアスがコーパス間の一般化を妨げることを示している。
- これを解決するため、学習埋め込みにおけるコーパス固有情報を最小化する、マルチタスク学習と勾配反転層を用いたドメイン不変特徴抽出(IDFE)フレームワークを提案している。
- IDFEは基準と比較して4つの多様なデータセット上で平均EERを20%低減させ、コーパス横断の変動に対する頑健性の向上を示している。
- この知見は、なりすまし検出におけるドメイン不変表現の価値を強調しており、実世界の導入においてコーパス横断性能の向上につながる可能性がある。