RLはLLMエージェントの能力限界を広げるのか？PASS@(k,T)分析

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、強化学習（RL）がLLMエージェントの「能力限界」を本当に押し広げるのか、それとも信頼性を高めるだけなのかを検証し、従来の静的推論における「pass@k収束」結果を、ツールを使うエージェント的な場面へ拡張します。
サンプリング予算（k）と相互作用の深さ（T）を同時に評価する新しい指標PASS@(k,T)を提案し、能力向上と効率改善を切り分けます。
主な発見として、ツール使用のエージェントではRLが能力限界を押し広げ、RLのpass曲線がベースモデルを上回り、大きいkでもギャップが縮まずむしろ広がることを示します。
この改善は、複雑で合成的・逐次的な情報収集が必要なタスクで特に顕著であり、より単純なタスクでは先行研究の予測どおりの挙動（境界拡大が小さい）になります。
学習データを揃えた比較では、教師あり微調整は同じ合成タスクでむしろ性能が後退し、メカニズム分析から、RLがベースの戦略分布を「正解につながる下流推論がより多い部分集合」へ再重み付けすることで、特に取得した情報を統合する部分で効果が集中していることが示唆されます。