要約: 言語モデルの数学的推論能力を向上させる支配的なパラダイムは、検証可能な報酬を伴う強化学習に依存しています。
しかし既存の方法は、訓練中に現れて蓄積される再利用可能な戦略を活用することなく、それぞれの問題インスタンスを個別に扱います。
この目的のために、ARISE(Agent Reasoning via Intrinsic Skill Evolution)を導入します。階層的な強化学習フレームワークで、共有ポリシーは高レベルでのスキル管理と低レベルでの応答生成の双方を操作します(それぞれ Skills Manager および Worker として表されます)。
マネージャーは、実行後の成功した解法の痕跡を構造的に要約する専用のスキル生成ロールアウトを通じて階層的なスキルライブラリを維持し、実行前に将来のロールアウトを条件づけるための関連スキルを取得するためのポリシー駆動の選択機構を採用します。
階層的報酬設計は、推論能力とライブラリ品質の共進化を導きます。
2つのベースモデルと、競技数学および Omni-MATH の両方を網羅する7つのベンチマークを対象とした実験は、ARISE が GRPO ファミリーのアルゴリズムおよびメモリ拡張ベースラインを一貫して上回ることを示し、分布外タスクで特に顕著な向上を示します。
アブレーション実験は、各要素が観察された改善に寄与すること、そしてライブラリ品質と推論性能が訓練を通じて連動して向上することを確認します。
コードは以下で利用可能です \href{https://github.com/Skylanding/ARISE}{https://github.com/Skylanding/ARISE}。
ARISE: 階層的強化学習における内在的スキル進化によるエージェント推論
arXiv cs.AI / 2026/3/18
📰 ニュースModels & Research
要点
- ARISE は、スキルマネージャー(高レベル)とワーカー(低レベル)を備えた階層的強化学習フレームワークを提示し、スキル管理と応答生成を分離する。
- マネージャーは、成功したトレースの事後要約を通じて階層化されたスキルライブラリを維持し、実行前に関連スキルを取得するポリシーを用いてロールアウトを条件付ける。
- 階層的報酬設計は推論能力とライブラリ品質を共進化させ、2つのベースモデルと7つのベンチマークでの実験により、ARISE が GRPO系メソッドおよびメモリ拡張ベースラインを上回ることを示し、特に分布外タスクで顕著に優れていることを示した。
- コードは https://github.com/Skylanding/ARISE で入手可能。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
