GFlowNetの学習における発散(ダイバージェンス)指標について

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生成フローネットワーク(Generative Flow Networks; GFlowNets)を学習する際に、異なる発散指標(Renyi-$\alpha$、Tsallis-$\alpha$、および順方向/逆方向KL)をどのように用いるべきかを研究し、学習された順方向/逆方向のポリシーがフローマッチング条件を満たすようにする方法を論じる。
  • 通常のKL最小化を単純に適用すると、バイアスが生じたり勾配推定量の分散が大きくなったりし得ると主張し、より統計的に効率的な発散指標に特化した目的関数が必要であることを動機づける。
  • 著者らは、REINFORCEのleave-one-outに由来する制御変数と、スコアマッチング技術を用いて、これらの発散に対する分散低減かつ統計的に効率的な確率的勾配推定量を設計する。
  • 実験の結果、提案された発散を最小化すると理論的に正しい学習が得られ、また従来のGFlowNet最適化手法よりも有意に速い収束を達成することが多いことが示される。
  • 全体として、本研究は、発散最小化という観点から学習を組み替えることで、GFlowNetsの学習を一般化された変分推論により近づけるものとなっている。

Abstract

生成フロー・ネットワーク(Generative Flow Networks; GFlowNets)は、合成可能な対象上の非正規化分布からサンプリングするために設計された、償却(amortized)推論モデルであり、因果探索、NLP、創薬などの分野における生成モデル化タスクへの応用があります。従来、GFlowNetsの学習手順は、提案(順方向ポリシー)と目標(逆方向ポリシー)の分布間の対数二乗差の期待値を最小化することを目的としており、特定のフロー整合(flow-matching)条件を課します。この学習手順は変分推論(Variational Inference; VI)と密接に関連していますが、標準的なKullback-Leibler(KL)ダイバージェンスの最小化をそのまま直接試みると、証明可能なバイアスを持ち得て、かつ分散が大きくなり得る推定量につながります。そこで本研究では、まず4つのダイバージェンス尺度、すなわちRenyi-\\alpha、Tsallis-\\alpha、逆KLおよび順KLを概観し、GFlowNetsの学習という文脈でそれらの確率的勾配に対する統計的に効率の良い推定器を設計します。次に、これらのダイバージェンスを適切に最小化することで、正しく、かつ実験的にも有効な学習手順が得られることを、理論的に保証しつつ実証します。しばしば、従来提案されていた最適化よりも大幅に速い収束が見られます。この目的のために、学習目的関数の勾配の分散を低減するべく、REINFORCEのleave-one-outおよびスコア整合(score-matching)推定器に基づくコントロールバリアートを設計します。本研究は、GFlowNetsの学習と一般化された変分近似とのギャップを狭めることで、ダイバージェンス最小化という観点に基づくアルゴリズム的アイデアへの道を開きます。