AIアシスタントからAIサイエンティストへ：LLMエージェントによるLLM-RLアルゴリズムの自律的発見

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

提案手法POISEは、言語モデル向けポリシー最適化（LLM-RL）アルゴリズムを、提案→実装→標準評価→自然言語による省察を閉ループで反復する形で自動発見するためのフレームワークである。
POISEは提案同士を系譜（genealogically linked）でアーカイブし、反復のたびに学習ダイナミクスと強く結びついた“機構”を対象に探索しつつ、過去の実証エビデンスを再利用できる設計になっている。
数学推論実験ではGRPOを起点に64候補を評価し、analytic-variance scalingやvalidity maskingといった改善メカニズムを発見したと報告している。
結果としてweighted Overallは47.8→52.5（+4.6）、AIME25のpass@32は26.7%→43.3%へと大きく向上し、自動化によるポリシー最適化探索の実現可能性と解釈可能な設計原則の両立を示した。

日経XTECH

Mistral AI Blog

Dev.to

Dev.to

Dev.to