確率的保証を備えたStable GFlowNets

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、生成フロー・ネットワーク（GFlowNets）が実運用で不安定になり得る理由を分析し、学習分布とターゲット分布の総変動距離（TV）が小さくても学習損失が発散し得ることを示します。
「逆方向」の理論保証として、軌道バランス損失が制限されていることから大域的な忠実性（fidelity）を導く、損失とTVの関係に基づく境界を導出します。
これらの結果に動機づけられ、著者らは学習時の大きな損失スパイクを抑え、モード崩壊を緩和することを目的にStable GFlowNetsという新しい学習アルゴリズムを提案します。
実験では、Stable GFlowNetsが従来手法よりも学習安定性と分布の忠実度の両面で優れていることが示されます。
総じて本研究は、GFlowNets学習をより確かなものにする理論的基盤と実用的手法の両方を提供します。

Abstract

生成フロー・ネットワーク（GFlowNets）は、非正規化報酬に比例する状態をサンプリングすることを学習する。理論上の期待にもかかわらず、実際の学習はしばしば不安定であり、重大な損失スパイクやモード崩壊が見られる。これに対処するために、まずGFlowNetの目的関数の感度を評価し、学習された分布と目標分布の間の小さな総変動（TV）距離が、無制限の学習損失の可能性を排除しないことを示す。この不一致に動機づけられ、逆の保証を確立し、軌道バランスの損失に上限があることから、損失からTVへの境界を導出することで大域的な忠実性を保証する。最後に、理論的結果を活用して学習を安定化するアルゴリズムであるStable GFlowNetsを提案し、経験的に、学習挙動の改善と、分布的忠実性のさらなる優位性を示す。