SymCircuit:エントロピー正則化強化学習による、扱いやすい確率回路のためのベイズ構造推論

arXiv cs.LG / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SymCircuitは、貪欲で取り消し不可能な探索を、エントロピー正則化強化学習で訓練された学習済みの生成ポリシーに置き換えることで、確率回路(PC)の構造学習に取り組む。
  • 本手法は「RL-as-inference(強化学習を推論として扱う)」として枠付けられており、最適なポリシーが温度付き(tempered)ベイズ事後分布に対応することを示し、温度がデータセットサイズに反比例するスケーリングでは正確な事後分布を回復できる。
  • SymCircuitは、木に相対的な自己注意(tree-relative self-attention)を備えた、文法に制約された自己回帰型TransformerであるSymFormerを導入し、生成の各ステップで常に有効な回路構造が保証される。
  • オプション(option)レベルのREINFORCEを用いて、構造上の意思決定に対してのみ勾配を更新し、信号対雑音比を改善し、NLTCSデータセットで10倍以上のサンプル効率を達成する。
  • 論文ではさらに、PC出力の多線形多項式としての構造に結び付けた、3つの不確実性分解(構造的・パラメータ的・葉)を開発し、SymCircuitはLearnSPNとの差分ギャップの93%を埋め、Plants(69変数)での予備的なスケーラビリティ結果も報告している。

要旨: 確率回路(PC)の構造学習は、不可逆で局所的に最適な判断を行う貪欲アルゴリズムによって妨げられています。そこで我々は、学習済みの生成ポリシーによって貪欲探索を置き換える SymCircuit を提案します。このポリシーは、エントロピー正則化付き強化学習によって訓練されます。PC 領域において RL-as-inference フレームワークを具体化することで、最適ポリシーは「温めた(tempered)ベイズ事後分布」であることを示します。正則化温度をデータセットサイズに反比例するように設定すると、正確な事後分布が復元されます。このポリシーは SymFormer として実装されます。SymFormer は、文法に制約を課した自己回帰型 Transformer であり、ツリー相対自己注意(tree-relative self-attention)を備えていて、生成の各ステップで常に有効な回路が得られることを保証します。さらに、オプションレベルの REINFORCE を導入し、全トークンではなく構造上の意思決定に対してのみ勾配更新を制限します。これにより、SNR(信号対雑音比)が向上し、NLTCS データセットで >10 倍のサンプル効率の改善が得られました。3層の不確実性分解(モデル平均による構造的不確実性、デルタ法によるパラメトリック不確実性、共役 Dirichlet-Categorical 伝播によるリーフ不確実性)は、PC 出力の多線形多項式構造に基づいています。NLTCS では、SymCircuit は LearnSPN との差(ギャップ)を 93% 閉じます。Plants(69 変数)に関する予備結果ではスケーラビリティが示唆されています。