AI Navigate

Graph-GRPO: 強化学習によるグラフフロー・モデルの訓練

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Graph-GRPOは、検証可能な報酬を用いてGraph Flow Models(GFM)を訓練するオンライン強化学習フレームワークを導入し、タスク固有の目的と人間の嗜好との整合性を図る。
  • GFMsの遷移確率の解析的表現を導出し、モンテカルロサンプリングを置換してRLトレーニングのための完全に微分可能なロールアウトを実現する。
  • グラフ内の特定のノードとエッジをランダムに摂動させ、それらを再生成する改良戦略を提案し、局所的な探索と生成品質の自己改善を可能にする。
  • 実験は顕著な結果を示し、50回のデノイジングステップで平面グラフに対して95.0%、木グラフに対して97.5%のValid-Unique-Noveltyを達成し、分子最適化タスクで最先端の性能を達成し、グラフベースおよびフラグメントベースのRL手法と古典的遺伝的アルゴリズムを上回った。
グラフ生成は、創薬など広範な応用を持つ基礎的なタスクです。最近では、離散フロー整列ベースのグラフ生成、すなわちグラフフロー・モデル(GFM)は、その優れた性能と柔軟なサンプリングのために台頭してきました。しかし、GFMsを複雑な人間の嗜好やタスク固有の目的に効果的に整合させることは依然として大きな課題です。本論文では、検証可能な報酬の下でGFMsを訓練するオンライン強化学習(RL)フレームワーク、Graph-GRPOを提案します。私たちの手法は2つの主要な貢献をもたらします:(1)GFMsの遷移確率の解析的表現を導出し、モンテカルロサンプリングを置換して、RLトレーニングのための完全に微分可能なロールアウトを実現する;(2)グラフ内の特定のノードとエッジをランダムに摂動させ、それらを再生成する改良戦略を提案する。これにより、局所的な探索と生成品質の自己改善が可能になります。合成データセットと実データセットの双方で広範な実験を行い、Graph-GRPOの有効性を示しました。50ステップのデノイジングのみで、平面グラフと木グラフのデータセットでそれぞれ95.0%、97.5%のValid-Unique-Noveltyを達成しました。さらに、Graph-GRPOは分子最適化タスクで最先端の性能を達成し、グラフベースおよびフラグメントベースのRL手法や従来の遺伝的アルゴリズムを上回りました。