From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents

arXiv cs.CL / 3/26/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 提案手法POISEは、言語モデル向けポリシー最適化(LLM-RL)アルゴリズムを、提案→実装→標準評価→自然言語による省察を閉ループで反復する形で自動発見するためのフレームワークである。
  • POISEは提案同士を系譜(genealogically linked)でアーカイブし、反復のたびに学習ダイナミクスと強く結びついた“機構”を対象に探索しつつ、過去の実証エビデンスを再利用できる設計になっている。
  • 数学推論実験ではGRPOを起点に64候補を評価し、analytic-variance scalingやvalidity maskingといった改善メカニズムを発見したと報告している。
  • 結果としてweighted Overallは47.8→52.5(+4.6)、AIME25のpass@32は26.7%→43.3%へと大きく向上し、自動化によるポリシー最適化探索の実現可能性と解釈可能な設計原則の両立を示した。

Abstract

Discovering improved policy optimization algorithms for language models remains a costly manual process requiring repeated mechanism-level modification and validation. Unlike simple combinatorial code search, this problem requires searching over algorithmic mechanisms tightly coupled with training dynamics while reusing empirical evidence across iterations. We propose POISE, a closed-loop framework for automated discovery of policy optimization algorithms for language models. POISE maintains a structured, genealogically linked archive linking proposals, executable implementations, standardized evaluations, and natural-language reflections to support evidence-driven iteration. In mathematical reasoning experiments starting from GRPO, POISE evaluates 64 candidate algorithms and discovers improved mechanisms, including analytic-variance scaling and validity masking. The best variant improves weighted Overall from 47.8 to 52.5 (+4.6) and increases AIME25 pass@32 from 26.7% to 43.3%, demonstrating the feasibility of automated policy optimization discovery while supporting interpretable design principles.