マルチストリーム変分オートエンコーダにおけるソースの分離
arXiv stat.ML / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、通常のVAEのように単一の潜在空間を用いるのではなく、離散および連続の潜在変数を組み合わせることでソースを分離するマルチストリーム変分オートエンコーダ(MS-VAE)を提案する。
- 離散潜在変数はデコーダ内の明示的なソース結合モデルによって取り込まれ、生成過程の一部として複数のソースを重ね合わせる。
- 著者らはMS-VAEの枠組みを形式的に定義し、推論および学習の方程式を導出した上で、数値実験により検証する。
- 実験では、重ね合わせたMNISTの数字の分離や、2話者会話音声に対する話者ダイアライゼーションを行い、いずれも明確なソース分離と競争力のある性能が示される。
- 本モデルは柔軟で、限定的な教師あり学習でも強い結果が得られるとしており、事前学習にラベルの10%のみを用いる例が示されている。