AIアシスタントからAIサイエンティストへ:LLMエージェントによるLLM-RLアルゴリズムの自律的発見
arXiv cs.CL / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 提案手法POISEは、言語モデル向けポリシー最適化(LLM-RL)アルゴリズムを、提案→実装→標準評価→自然言語による省察を閉ループで反復する形で自動発見するためのフレームワークである。
- POISEは提案同士を系譜(genealogically linked)でアーカイブし、反復のたびに学習ダイナミクスと強く結びついた“機構”を対象に探索しつつ、過去の実証エビデンスを再利用できる設計になっている。
- 数学推論実験ではGRPOを起点に64候補を評価し、analytic-variance scalingやvalidity maskingといった改善メカニズムを発見したと報告している。
- 結果としてweighted Overallは47.8→52.5(+4.6)、AIME25のpass@32は26.7%→43.3%へと大きく向上し、自動化によるポリシー最適化探索の実現可能性と解釈可能な設計原則の両立を示した。