AI Navigate

PCOV-KWS: 個人化されたカスタマイズ可能なオープンボキャブラリ・キーワードスポッティングのマルチタスク学習

arXiv cs.AI / 2026/3/20

💬 オピニオンModels & Research

要点

  • PCOV-KWS論文は、IoT、ASR、SV、TTSの文脈で、プライバシーを重視したカスタマイズ可能なオープンボキャブラリKWSのマルチタスク学習フレームワークを提案する。
  • 軽量なネットワークを用いて、キーワードスポッティングと話者検証を共同で実行し、ソフトマックスベースの損失を、マルチクラス問題を複数の二値分類へ変換してクラス間競合を回避する学習基準に置換する。
  • トレーニング時にはマルチタスク損失の重み付け最適化戦略を採用し、複数のデータセットで評価した結果、ベースラインより優れており、パラメータ数が少なく、計算資源も低く抑えられることを示した。
  • 本研究はプライバシーに配慮したカスタマイズ可能な音声体験を支援し、消費者デバイス向けのオンデバイスでの個別化KWSをより効率的に実現できる可能性を示唆している。

要旨: モノのインターネット(IoT)、自動音声認識(ASR)、話者検証(SV)、テキスト読み上げ(TTS)などの技術の進歩により、インテリジェント音声アシスタントの利用が拡大しており、プライバシーとパーソナライズの需要が高まっています。本論文では、個別化された、カスタマイズ可能な開放語彙キーワードスポッティング(PCOV-KWS)のためのマルチタスク学習フレームワークを提案します。このフレームワークは、軽量なネットワークを用いて、個別化されたKWS要件に対応するため、同時にキーワードスポッティング(KWS)とSVを実行します。ソフトマックスベースの損失とは異なる訓練基準を組み込み、多クラス分類を複数の二値分類に変換することで、カテゴリ間の競合を排除します。訓練中には、マルチタスク損失の重み付けを最適化する戦略を適用します。私たちは複数のデータセットでPCOV-KWSシステムを評価し、評価結果でベースラインを上回ることを示すとともに、パラメータ数が少なく、計算資源も低く抑えられることを示しました。