From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents
arXiv cs.CL / 3/26/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 提案手法POISEは、言語モデル向けポリシー最適化(LLM-RL)アルゴリズムを、提案→実装→標準評価→自然言語による省察を閉ループで反復する形で自動発見するためのフレームワークである。
- POISEは提案同士を系譜(genealogically linked)でアーカイブし、反復のたびに学習ダイナミクスと強く結びついた“機構”を対象に探索しつつ、過去の実証エビデンスを再利用できる設計になっている。
- 数学推論実験ではGRPOを起点に64候補を評価し、analytic-variance scalingやvalidity maskingといった改善メカニズムを発見したと報告している。
- 結果としてweighted Overallは47.8→52.5(+4.6)、AIME25のpass@32は26.7%→43.3%へと大きく向上し、自動化によるポリシー最適化探索の実現可能性と解釈可能な設計原則の両立を示した。
Related Articles
Speaking of VoxtralResearchVoxtral TTS: A frontier, open-weights text-to-speech model that’s fast, instantly adaptable, and produces lifelike speech for voice agents.
Mistral AI Blog
Why I Switched from Cloud AI to a Dedicated AI Box (And Why You Should Too)
Dev.to
Anyone who has any common sense knows that AI agents in marketing just don’t exist.
Dev.to
How to Use MiMo V2 API for Free in 2026: Complete Guide
Dev.to
The Agent Memory Problem Nobody Solves: A Practical Architecture for Persistent Context
Dev.to