Abstract
生成フロー・ネットワーク(Generative Flow Networks; GFlowNets)は、合成可能な対象上の非正規化分布からサンプリングするために設計された、償却(amortized)推論モデルであり、因果探索、NLP、創薬などの分野における生成モデル化タスクへの応用があります。従来、GFlowNetsの学習手順は、提案(順方向ポリシー)と目標(逆方向ポリシー)の分布間の対数二乗差の期待値を最小化することを目的としており、特定のフロー整合(flow-matching)条件を課します。この学習手順は変分推論(Variational Inference; VI)と密接に関連していますが、標準的なKullback-Leibler(KL)ダイバージェンスの最小化をそのまま直接試みると、証明可能なバイアスを持ち得て、かつ分散が大きくなり得る推定量につながります。そこで本研究では、まず4つのダイバージェンス尺度、すなわちRenyi-\\alpha、Tsallis-\\alpha、逆KLおよび順KLを概観し、GFlowNetsの学習という文脈でそれらの確率的勾配に対する統計的に効率の良い推定器を設計します。次に、これらのダイバージェンスを適切に最小化することで、正しく、かつ実験的にも有効な学習手順が得られることを、理論的に保証しつつ実証します。しばしば、従来提案されていた最適化よりも大幅に速い収束が見られます。この目的のために、学習目的関数の勾配の分散を低減するべく、REINFORCEのleave-one-outおよびスコア整合(score-matching)推定器に基づくコントロールバリアートを設計します。本研究は、GFlowNetsの学習と一般化された変分近似とのギャップを狭めることで、ダイバージェンス最小化という観点に基づくアルゴリズム的アイデアへの道を開きます。