離散フローマッチング・ポリシー最適化

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ポリシーグラディエント法を用いて離散フローマッチング(DFM)モデルを強化学習で微調整するための、統一的な枠組みである離散フローマッチング・ポリシー最適化(DoMinO)を提案する。
  • DFMのサンプリングを、多段階のマルコフ決定過程(MDP)として組み替え、RL微調整における報酬最大化を、バイアスのかかった補助推定器や尤度サロゲートに依存せずに、解釈可能で頑健なRL目的関数へと変換する。
  • 微調整中のポリシー崩壊を抑えるために、DoMinOは、微調整後の分布を事前学習済み分布に近づける新しい全変動(total variation)正則化項を追加する。
  • 著者らは理論的な誤差および正則化項の上界を提示し、離散化誤差の上界や、正則化項に対する計算可能な境界を含める。
  • 規制(レギュラトリー)DNA配列設計に関する実験では、既存の報酬駆動ベースラインよりも予測エンハンサー活性が向上し、配列の自然さも改善することが示され、さらに正則化により自然な配列分布への整合性が一層高まる。

要旨: 我々は、広範な方策勾配法のクラスのもとで、強化学習(RL)による離散フローマッチング(Discrete Flow Matching: DFM)モデルの微調整を統一的に扱う枠組み、離散フローマッチング方策最適化(Discrete flow Matching policy Optimization: DoMinO)を提案する。主要な着想は、DFMのサンプリング手順を多段のマルコフ決定過程として捉えることである。この見方により、微調整における報酬最大化を堅牢なRL目的として、単純かつ透明に再定式化できる。したがってDoMinOは、元のDFMサンプラーを保持するだけでなく、多くの先行するRL微調整手法で用いられている、偏りのある補助推定量や尤度の代理(likelihood surrogate)を回避する。方策の崩壊を防ぐために、微調整後の分布を事前学習分布に近づける新しい全変動(total-variation)正則化項も導入する。理論的には、DoMinOの離散化誤差に関する上界を確立し、正則化項に対する計算可能な上界も導出する。実験では、規制DNA配列設計においてDoMinOを評価する。DoMinOは、従来の最良の報酬駆動ベースラインよりも、より強い予測エンハンサー活性とより良い配列の自然さを達成する。さらに、正則化は、強い機能性能を維持しつつ、自然な配列分布との整合性を一層改善する。これらの結果は、DoMinOが制御可能な離散配列生成のための有用な枠組みであることを示している。