反省的経験からの主体性の内在化

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

LEAFE は、反省的経験から回復主体性を内在化するフレームワークであり、LLMs における長期的なエージェント性能を向上させる。
結果指向の事後訓練法の限界に対処するため、豊富な環境フィードバックを活用して分布の鋭化を防ぐ。
探索中、エージェントはフィードバックを要約し、以前の意思決定へ遡って代替の分岐を探索し、その後、訂正をモデルへ蒸留するための教師あり微調整を行う。
インタラクティブなコーディングおよびエージェント系タスク全体の実証結果は、LEAFE が Pass@1 を改善し、GRPO および Early Experience のベースラインを上回り、Pass@128 で最大 14% の向上を示した。

要約: 大規模言語モデルは、豊かなフィードバックを提供する環境との長期的な相互作用を通じて、計画を立て、行動し、誤りから回復しなければならない自律エージェントとして、ますます展開されつつある。
しかし、現在主流の成果指向のポストトレーニング手法（例：検証可能な報酬を伴う強化学習）は、主に最終的な成功信号を最適化し、豊かな環境フィードバックを十分に活用していない。
その結果、しばしば分布の鋭化を招く。ポリシーはすでに成功している振る舞いの狭い範囲を再現する能力を高める一方で、長期的な設定で問題解決能力を拡張するのに必要な、環境フィードバックに根ざしたエージェンシーを改善できず、（例：Pass@k）を高めることが難しくなる。

これに対処するため、反省的経験からのフィードバックを根拠としたエージェンシーの学習を行う LEAFE（Learning Feedback-Grounded Agency from Reflective Experience）という枠組みを提案します。具体的には、探査の過程で、エージェントは環境フィードバックを実行可能な経験に要約し、以前の意思決定点に遡って、修正した行動で代替の分岐を探索します。次に、これらの経験に基づく修正を監督付きファインチューニングを通じてモデルに蒸留し、将来の相互作用でポリシーがより効果的に回復できるようにします。一定の相互作用予算のもと、対話型のコーディングおよびエージェント型タスクの多様な集合を横断して、LEAFEは基盤モデルに対してPass@1を一貫して改善し、結果主導のベースライン（GRPO）や Early Experience のような経験ベースの手法よりも高い Pass@k を達成します。Pass@128で最大14%の向上を得られます。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

反省的経験からの主体性の内在化

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも