ProKWS: 音素と韻律の協調学習による個別化キーワードスポッティング

arXiv cs.AI / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ProKWS は、音素表現と話者固有の韻律パターンを同時に学習するデュアルストリームエンコーダを導入し、両モダリティを統合する協調融合モジュールを用いる。
音素ストリームは音素表現を強化するためにコントラスト学習を用い、韻律ストリームは音調・強勢・リズムなど、話者個別の特徴を捉える。
このアプローチは、異なる音響環境への適応性を向上させ、音調や意図の変化に対応したキーワードスポッティングを個別化することを目指している。
実験は、標準ベンチマーク上で最先端モデルと競争力のある性能を示し、多様な韻律表現にわたる個別化キーワードの堅牢な取り扱いを示している。

概要: 現在のキーワードスポッティングシステムは、混同しやすい単語を識別するために主に音素レベルの照合を使用しますが、プロソディ（イントネーション、強勢、リズム）といったユーザー固有の発音特性を無視します。本論文は ProKWS という新規フレームワークを提案します。細粒度の音素学習と個人化されたプロソディモデリングを統合します。私たちは、片方のストリームが対照学習を通じて頑健な音韻表現を導出し、もう片方が話者固有のプロソディパターンを抽出するデュアルストリームエンコーダを設計します。協調的な融合モジュールは音素情報と韻律情報を動的に組み合わせ、さまざまな音響環境への適応性を高めます。実験の結果、ProKWSは標準ベンチマークにおいて最先端モデルに匹敵する高い競争力を持つ性能を発揮し、音調と意図の変動を伴う個人化キーワードに対しても高い頑健性を示します。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

ProKWS: 音素と韻律の協調学習による個別化キーワードスポッティング

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer