要旨: マルチターンのLLMエージェントに対する強化学習(RL)トレーニングは、本質的に不安定であり、推論の質がタスク性能を直接決定します。エントロピーは、推論の安定性を追跡するために広く用いられています。しかしエントロピーは、同一の入力内での多様性しか測定できず、推論が実際に異なる入力に応答しているかどうかを判定できません。RAGEN-2では、安定したエントロピーが得られていても、モデルが入力に無関係なテンプレートに依存してしまい、それが多様に見えるにもかかわらず実際は入力に無頓着であることを見出します。これをテンプレート崩壊と呼びます。これはエントロピーおよび既存のすべての指標では見えない失敗モードです。この失敗を診断するために、推論の質を「入力内多様性(エントロピー)」と「入力間の識別可能性(相互情報量、MI)」に分解し、オンライン診断のための相互情報量の代理指標のファミリーを導入します。多様なタスクにわたって、相互情報量はエントロピーよりもはるかに強く最終性能と相関し、推論の質のより信頼できる代理指標となります。さらに、信号対雑音比(SNR)メカニズムを用いてテンプレート崩壊を説明します。報酬の分散が低いとタスク勾配が弱まり、正則化項が優勢になって入力間の推論の差異が消されてしまいます。これに対処するために、反復ごとに報酬分散を軽量な代理指標として用い、高信号のプロンプトを選択するSNR-Aware Filteringを提案します。計画、数学推論、Webナビゲーション、コード実行において、本手法は入力への依存性とタスク性能の両方を一貫して改善します。
RAGEN-2: アジェンティックRLにおける推論崩壊
arXiv cs.LG / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- RAGEN-2は、多ターンのLLMエージェント強化学習における新たな失敗モード「テンプレート崩壊」を特定する。ここでは、モデルが一見多様な推論を生成するが、実際には入力に依存せず(入力非依存)、エントロピーに基づく指標では検出をすり抜けてしまう。
- 本論文は、推論品質を「同一入力内の多様性(エントロピーで測定)」と「異なる入力間での識別可能性(相互情報量で測定)」に分解し、複数のタスクにおいて相互情報量がエントロピーよりも最終的なタスク性能と強く相関することを示す。
- オンライン診断を可能にするため、RAGEN-2は相互情報量の代理指標(プロキシ指標)を導入し、推論が異なる入力に対して応答しなくなっている状況を検出するうえでその有効性を実証する。
- 著者らは、信号対雑音比(SNR)の仕組みを用いてテンプレート崩壊を説明する。報酬分散が低いと有用なタスク勾配が弱まり、正則化が支配的となって異なる入力間の差異が取り除かれる。
- 対策として本論文は、SNRを意識したフィルタリング(SNR-Aware Filtering)を提案する。これは、反復ごとに報酬分散に基づいて高い信号を持つプロンプトを選択し、入力依存性と性能の両方を改善する。計画、数学、Webナビゲーション、コード実行において有効であることを示す。




