ARISE: 階層的強化学習における内在的スキル進化によるエージェント推論

arXiv cs.AI / 2026/3/18

📰 ニュースModels & Research

共有:

要点

ARISE は、スキルマネージャー（高レベル）とワーカー（低レベル）を備えた階層的強化学習フレームワークを提示し、スキル管理と応答生成を分離する。
マネージャーは、成功したトレースの事後要約を通じて階層化されたスキルライブラリを維持し、実行前に関連スキルを取得するポリシーを用いてロールアウトを条件付ける。
階層的報酬設計は推論能力とライブラリ品質を共進化させ、2つのベースモデルと7つのベンチマークでの実験により、ARISE が GRPO系メソッドおよびメモリ拡張ベースラインを上回ることを示し、特に分布外タスクで顕著に優れていることを示した。
コードは https://github.com/Skylanding/ARISE で入手可能。

要約: 言語モデルの数学的推論能力を向上させる支配的なパラダイムは、検証可能な報酬を伴う強化学習に依存しています。
しかし既存の方法は、訓練中に現れて蓄積される再利用可能な戦略を活用することなく、それぞれの問題インスタンスを個別に扱います。
この目的のために、ARISE（Agent Reasoning via Intrinsic Skill Evolution）を導入します。階層的な強化学習フレームワークで、共有ポリシーは高レベルでのスキル管理と低レベルでの応答生成の双方を操作します（それぞれ Skills Manager および Worker として表されます）。
マネージャーは、実行後の成功した解法の痕跡を構造的に要約する専用のスキル生成ロールアウトを通じて階層的なスキルライブラリを維持し、実行前に将来のロールアウトを条件づけるための関連スキルを取得するためのポリシー駆動の選択機構を採用します。
階層的報酬設計は、推論能力とライブラリ品質の共進化を導きます。
2つのベースモデルと、競技数学および Omni-MATH の両方を網羅する7つのベンチマークを対象とした実験は、ARISE が GRPO ファミリーのアルゴリズムおよびメモリ拡張ベースラインを一貫して上回ることを示し、分布外タスクで特に顕著な向上を示します。
アブレーション実験は、各要素が観察された改善に寄与すること、そしてライブラリ品質と推論性能が訓練を通じて連動して向上することを確認します。
コードは以下で利用可能です \href{https://github.com/Skylanding/ARISE}{https://github.com/Skylanding/ARISE}。

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

note

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

note

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

ARISE: 階層的強化学習における内在的スキル進化によるエージェント推論

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも