補完的強化学習

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

補完的 RL は、LLMベースのエージェントのサンプル効率を向上させるために、RLループ内で共進化する体験抽出器とポリシーアクターを導入します。
過去の経験が静的であるか、アクターの進化する能力と齟齬している問題に対し、体験管理を学習と連動して適応させることで解決します。
この手法は、スパースな成果ベースの報酬でアクターを最適化しつつ、体験抽出器を訓練してアクターの成功に対する自らの寄与影響を最大化します。
実証的な結果は、単一タスク設定で約10％の性能向上と、マルチタスク環境での堅牢なスケーラビリティを示しており、経験主導のエージェント学習の有望な新しいパラダイムを示唆します。

要旨: 強化学習（RL）は、LLMベースのエージェントを訓練するための強力なパラダイムとして浮上してきましたが、サンプル効率の低さという点で依然として制限されており、それは希薄なアウトカムフィードバックだけでなく、エピソード間での過去の経験を活用できないエージェントの能力にも起因します。歴史的な経験をエージェントに付与することは有望な対策を提供しますが、既存のアプローチには重大な弱点があります。歴史から蒸留された経験は静的に保存されるか、改善するアクターと共進化できず、訓練の過程で経験とアクターの進化する能力との間に徐々に齟齬を生じさせ、その有用性を低下させます。神経科学における補完的学習システムに触発され、RLの最適化ループ内で経験抽出器とポリシーアクターのシームレスな共進化を実現するComplementary RLを提示します。具体的には、アクターは希薄なアウトカムベースの報酬によって最適化され、経験抽出器は蒸留された経験がアクターの成功に寄与することを実証的に示すかどうかに応じて最適化され、アクターの成長する能力と同時進行でその経験管理戦略を進化させます。実証的には、経験から学ばないアウトカムベースのエージェントRLベースラインを上回るComplementary RLが、単一タスクの状況で10％の性能向上を達成し、マルチタスク設定で堅牢なスケーラビリティを示します。これらの成果は、効率的な経験駆動型エージェント学習のパラダイムとしてComplementary RLを確立します。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

補完的強化学習

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer