AI Navigate

Mask2Flow-TSE: マスキングとフロー整合を用いた2段階ターゲット話者抽出

arXiv cs.AI / 2026/3/16

📰 ニュースModels & Research

要点

  • Mask2Flow-TSE は、粗い分離のための識別的マスキングと、精練のためのフロー整合を組み合わせた、2段階のターゲット話者抽出フレームワークである。
  • 第一段階では粗い分離を達成するための識別的マスキングを行い、第二段階では出力をターゲット音声に向けて洗練させるためにフロー整合を用いる。
  • ガウスノイズから音声を合成し、しばしば多数の反復ステップを必要とする生成型TSE法とは異なり、Mask2Flow-TSE はマスクされたスペクトログラムから開始することで、1回の推論ステップで高品質な再構成を実現する。
  • 実験では、本アプローチが約8500万パラメータで、既存の生成的手法と同等の性能を達成することを示している。

要旨:Target speaker extraction (TSE) は、参照発話が与えられた重なり合う音声混合からターゲット話者の声を抽出します。従来のアプローチは通常、識別的(ディスクリミネーティブ)と生成的(ジェネレーティブ)の2つのカテゴリに分かれます。識別的手法は高速推論のための時刻周波数マスキングを適用しますが、しばしばターゲット信号を過度に抑制してしまいます。一方、生成的手法は多数の反復ステップを要する代わりに高品質な音声を合成します。我々はMask2Flow-TSE を提案します。これは両方のパラダイムの長所を組み合わせた2段階のフレームワークです。第一段階は粗い分離のための識別的マスキングを適用し、第二段階はフロー整合を用いて出力をターゲット音声へと洗練します。Gaussianノイズから音声を合成する生成的アプローチとは異なり、私たちの手法はマスクされたスペクトログラムから開始するため、1回の推論ステップで高品質な再構成を実現します。実験の結果、Mask2Flow-TSE は約8500万パラメータで既存の生成的TSE手法と同等の性能を達成することが示されました。