要旨:Target speaker extraction (TSE) は、参照発話が与えられた重なり合う音声混合からターゲット話者の声を抽出します。従来のアプローチは通常、識別的(ディスクリミネーティブ)と生成的(ジェネレーティブ)の2つのカテゴリに分かれます。識別的手法は高速推論のための時刻周波数マスキングを適用しますが、しばしばターゲット信号を過度に抑制してしまいます。一方、生成的手法は多数の反復ステップを要する代わりに高品質な音声を合成します。我々はMask2Flow-TSE を提案します。これは両方のパラダイムの長所を組み合わせた2段階のフレームワークです。第一段階は粗い分離のための識別的マスキングを適用し、第二段階はフロー整合を用いて出力をターゲット音声へと洗練します。Gaussianノイズから音声を合成する生成的アプローチとは異なり、私たちの手法はマスクされたスペクトログラムから開始するため、1回の推論ステップで高品質な再構成を実現します。実験の結果、Mask2Flow-TSE は約8500万パラメータで既存の生成的TSE手法と同等の性能を達成することが示されました。
Mask2Flow-TSE: マスキングとフロー整合を用いた2段階ターゲット話者抽出
arXiv cs.AI / 2026/3/16
📰 ニュースModels & Research
要点
- Mask2Flow-TSE は、粗い分離のための識別的マスキングと、精練のためのフロー整合を組み合わせた、2段階のターゲット話者抽出フレームワークである。
- 第一段階では粗い分離を達成するための識別的マスキングを行い、第二段階では出力をターゲット音声に向けて洗練させるためにフロー整合を用いる。
- ガウスノイズから音声を合成し、しばしば多数の反復ステップを必要とする生成型TSE法とは異なり、Mask2Flow-TSE はマスクされたスペクトログラムから開始することで、1回の推論ステップで高品質な再構成を実現する。
- 実験では、本アプローチが約8500万パラメータで、既存の生成的手法と同等の性能を達成することを示している。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning