報酬としての議論：RLによるポスト学習で科学的アイデア創出を行うマルチエージェント報酬システム

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMを用いたマルチエージェントの科学的アイデア創出に対して、従来の反復プロンプトや複雑なマルチエージェント構成で起きやすい幻覚や計算効率の低さを抑えることを狙った、RLのポスト学習フレームワークを提案します。
「審判」として機能するマルチエージェントの報酬関数を導入し、方法論の検証を実装の細部から切り離しつつ、報酬ハッキングに頑健な厳密な2値報酬を用います。
報酬が疎な信号であるため、人工的な長さバイアスを回避するために、不偏なGroup Relative Policy Optimizationの派生手法で最適化します。
学習は、ICLR 2024の採録から抽出した問題—解決ペアをまとめたICLR-320に基づいて行われ、実験では新規性・実現可能性・有効性の専門家評価指標で従来ベースラインを大きく上回ることを示しています。

要旨: 大規模言語モデル（LLM）は科学的着想の自動化における可能性を示してきましたが、反復的なプロンプト入力や複雑なマルチエージェントアーキテクチャに依存する現行の手法では、幻覚（ハルシネーション）や計算効率の低下といった問題がしばしば生じます。この開放的な領域に対して強化学習（RL）を適用する上での重要なボトルネックは、報酬ハッキング（reward hacking）です。これは、モデルが不完全な評価用代理指標を悪用して、真に科学的な革新を生み出すことなくスコアを最大化する現象を指します。これらの制限に対処するために、我々は高品質な科学的アイデア生成に明示的に合わせ込んだRLフレームワークを提案します。方法論の検証を実装上の詳細から切り離しつつ、報酬ハッキングに対して頑健な厳密な二値報酬を提供する、審判（judge）として機能するための初めてのマルチエージェント報酬関数を提案します。この疎な信号に対して効果的に最適化するために、人工的な長さバイアスを軽減するべく、Group Relative Policy Optimization の無偏な変種を用います。学習は、ICLR 2024 論文集から抽出した問題—解決ペアをまとめたキュレーション済みデータセットである ICLR-320 に基づいています。実験の結果、我々のフレームワークは、専門家による評価指標である新規性、実現可能性、有効性の各項目において、最先端のベースラインを大きく上回ることが示されました。