Graph-GRPO: 強化学習によるグラフフロー・モデルの訓練

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Graph-GRPOは、検証可能な報酬を用いてGraph Flow Models（GFM）を訓練するオンライン強化学習フレームワークを導入し、タスク固有の目的と人間の嗜好との整合性を図る。
GFMsの遷移確率の解析的表現を導出し、モンテカルロサンプリングを置換してRLトレーニングのための完全に微分可能なロールアウトを実現する。
グラフ内の特定のノードとエッジをランダムに摂動させ、それらを再生成する改良戦略を提案し、局所的な探索と生成品質の自己改善を可能にする。
実験は顕著な結果を示し、50回のデノイジングステップで平面グラフに対して95.0%、木グラフに対して97.5%のValid-Unique-Noveltyを達成し、分子最適化タスクで最先端の性能を達成し、グラフベースおよびフラグメントベースのRL手法と古典的遺伝的アルゴリズムを上回った。

グラフ生成は、創薬など広範な応用を持つ基礎的なタスクです。最近では、離散フロー整列ベースのグラフ生成、すなわちグラフフロー・モデル（GFM）は、その優れた性能と柔軟なサンプリングのために台頭してきました。しかし、GFMsを複雑な人間の嗜好やタスク固有の目的に効果的に整合させることは依然として大きな課題です。本論文では、検証可能な報酬の下でGFMsを訓練するオンライン強化学習（RL）フレームワーク、Graph-GRPOを提案します。私たちの手法は2つの主要な貢献をもたらします：（1）GFMsの遷移確率の解析的表現を導出し、モンテカルロサンプリングを置換して、RLトレーニングのための完全に微分可能なロールアウトを実現する；（2）グラフ内の特定のノードとエッジをランダムに摂動させ、それらを再生成する改良戦略を提案する。これにより、局所的な探索と生成品質の自己改善が可能になります。合成データセットと実データセットの双方で広範な実験を行い、Graph-GRPOの有効性を示しました。50ステップのデノイジングのみで、平面グラフと木グラフのデータセットでそれぞれ95.0%、97.5%のValid-Unique-Noveltyを達成しました。さらに、Graph-GRPOは分子最適化タスクで最先端の性能を達成し、グラフベースおよびフラグメントベースのRL手法や従来の遺伝的アルゴリズムを上回りました。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

Graph-GRPO: 強化学習によるグラフフロー・モデルの訓練

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer