SAHMM-VAE：ソース別適応型隠れマルコフ事前分布を用いるソースワイズ・アダプティブ隠れマルコフ・プライアVAEによる教師なしブラインドソースセパレーション

arXiv cs.LG / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、潜在変数に対してソース別に適応する隠れマルコフ（HMM）事前分布を用いる、教師なしブラインドソースセパレーションのための構造化された変分オートエンコーダ（SAHMM-VAE）を提案する。
単一の汎用的な潜在事前分布ではなく、SAHMM-VAEは各潜在次元に対してそれぞれ独自のレジーム切替（状態遷移）を行うHMMの構造を割り当て、異なる次元が異なるソース固有の時間的構造に整合することを促す。
後処理として別途ソース分離を行うのではなく、エンコーダ、デコーダ、事後分布、そしてソース別の事前分布パラメータを共同最適化することで、変分学習そのものにソース分離を統合する。
著者らは、統一された枠組みの中で3種類の事前分布の変種を実装する：ガウス放出（emission）のHMM事前分布、マルコフ切替の自己回帰（autoregressive）HMM事前分布、そして状態フロー（state-flow）型のHMM事前分布（状態ごとの自己回帰フロー変換を伴う）。
実験結果から、本手法は教師なしでもソースを復元できるだけでなく、意味のある潜在のスイッチング構造も学習できることが示される。本アプローチは、解釈可能で（場合によっては）同定可能な潜在モデリングを目指す、構造化事前分布VAE研究の拡張として位置づけられている。

Abstract

本稿では、教師なしブラインドソース分離のための、ソース単位で適応する隠れマルコフ事前分布付き変分オートエンコーダ（SAHMM-VAE）を提案する。潜在事前分布を単一の汎用的な正則化器として扱うのではなく、提案手法は各潜在次元にそれぞれ固有の適応的なレジーム切り替え（状態遷移）事前分布を割り当てる。その結果、学習中に異なる潜在次元は、異なるソースに固有の時間的な構造へと引き寄せられる。この定式化では、ソース分離は外部の事後処理ステップとして実装されるのではなく、変分学習そのものに直接埋め込まれる。エンコーダ、デコーダ、事後分布パラメータ、およびソース単位の事前分布パラメータを共同で最適化し、エンコーダは混合変換の近似逆写像のように振る舞う推論写像を段階的に学習する一方、デコーダは生成的な混合モデルの役割を果たす。この結合最適化を通じて、事後分布のソース軌道と異種のHMM事前分布との漸進的な整合性が、異なる潜在次元が異なるソース成分へと分離されるためのメカニズムとなる。この考えを具体化するために、1つの共通フレームワーク内に3つの分岐を設計する。すなわち、ガウス放出（emission）型のHMM事前分布、マルコフ切り替え型の自己回帰（autoregressive）HMM事前分布、そして状態ごとの自己回帰フロー変換を伴うHMM状態フロ—事前分布である。実験の結果、提案フレームワークは、意味のあるソース単位のスイッチング構造を学習しつつ、教師なしでのソース復元を達成することが示される。より広く言えば、本手法は、スムーズ、混合（mixture）、およびフローに基づく潜在事前分布という我々の構造化事前分布VAEの系譜を、適応的な切り替え事前分布へと拡張するものであり、解釈可能で、場合によっては同定可能な潜在ソースモデリングに関する今後の研究のための有用な基盤を提供する。