エージェント型探索のための自己反省を用いたメタ強化学習

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MR-Searchは、過去の経験を条件にすることでエピソード間で戦略を適応できる、エージェント型探索の文脈内メタ強化学習フレームワークを導入する。
このアプローチは、各エピソード後の明示的な自己反省を活用して、次の試行を導く追加の文脈を生成し、テスト時の文脈内探索を改善する。
エピソード間の細かなクレジット配分を可能にする、ターンレベルで密度の高い相対的アドバンテージを推定する新しい多ターンRLアルゴリズムが提案される。
実験結果は、8つのベンチマークにおいて、ベースラインと比較して9.2%から19.3%の性能向上を示し、強い一般化能力を示す。著者らはリンクされたGitHubリポジトリにコードとデータを公開している。

本文: arXiv:2603.11327v1 アナウンス種別: new 要旨: この論文は MR-Search、自己反省を伴うエージェント型探索の文脈内メタ強化学習（RL）定式化を紹介します。スパース報酬を伴う単一の独立したエピソード内で方策を最適化する代わりに、MR-Search は過去のエピソードを条件としてエピソード間で探索戦略を適応させる方策を学習します。MR-Search は自己反省を用いて探索戦略を学習する学習を学習し、テスト時の文脈内探索を改善できるようにします。具体的には、MR-Search は各エピソードの後に明示的な自己反省を生成し、それを追加の文脈として活用して後続の試行を導くことで、エピソード間の探索を促進し、テスト時の探索をより効果的にします。さらに、ターンレベルで密度の高い相対的アドバンテージを推定する多ターン RL アルゴリズムを導入し、各エピソードでの細かなクレジット配分を可能にします。さまざまなベンチマークにおける経験的結果は、MR-Search が従来の RL ベースのベースラインより優れており、強い一般化と 8 つのベンチマークで 9.2% から 19.3% の相対的改善を示すことを示しています。私たちのコードとデータは https://github.com/tengxiao1/MR-Search で公開されています。

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

毎秒「10回→100回」の動作指示が可能に　日立のフィジカルAI「3つの新技術」とは？

ITmedia AI+

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

ITmedia AI+

エージェント型探索のための自己反省を用いたメタ強化学習

要点

関連記事

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

毎秒「10回→100回」の動作指示が可能に　日立のフィジカルAI「3つの新技術」とは？

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

毎秒「10回→100回」の動作指示が可能に 日立のフィジカルAI「3つの新技術」とは？

Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

毎秒「10回→100回」の動作指示が可能に　日立のフィジカルAI「3つの新技術」とは？