長期ホライズンLLMエージェントのための振り返りクレジットアサインメント

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 大規模言語モデル(LLM)エージェントは、報酬がまばらなため、長期的かつ多段階のタスクにおけるクレジットアサインメントに苦戦しており、これが正確なQ値推定や価値ベースラインの整合性の課題につながっている。
  • 提案されたHCAPOフレームワークは、LLM自体を事後批評者として利用してステップレベルのQ値を洗練させる振り返りクレジットアサインメントを導入し、マルチスケールアドバンテージ機構を組み込んで価値ベースラインを改善する。
  • WebShopやALFWorldなどのベンチマーク評価で、HCAPOは最先端の強化学習手法を上回り、GRPOベースラインに対してそれぞれ7.7%および13.8%の成功率向上を示している。
  • HCAPOは探索効率を高め、簡潔な意思決定を促進し、複雑かつ長期的なタスクにもスケール可能であり、LLMエージェント性能における大きな前進を示している。
  • 本研究は、RLに基づくLLMエージェントのクレジットアサインメントにおける根本的なボトルネックを解決し、連続的意思決定問題におけるより信頼性が高くスケール可能な性能を可能にする。

コンピュータサイエンス > 機械学習

arXiv:2603.08754 (cs)
[2026年3月7日に投稿]

題目:長いホライズンのLLMエージェントに対する hindsight credit assignment(遡及的クレジット割当て)

Hui-Ze Tan と他9名の著者による論文「長いホライズンのLLMエージェントに対する hindsight credit assignment(遡及的クレジット割当て)」のPDFを表示
PDFを表示 HTML(実験的)
要旨:大規模言語モデル(LLM)エージェントは、報酬が疎であるため、長いホライズンかつ多段階のタスクにおいて重大なクレジット割当ての課題に直面することが多い。Group Relative Policy Optimization(GRPO)のような既存の value-free 手法には、2つの根本的なボトルネックがある。すなわち、ステップごとのQ値推定の不正確さ、ならびに中間状態に対する価値ベースラインの不整合である。これらの制約に対処するために、我々は、LLMエージェントへ遡及的クレジット割当てを統合することを目的とした最初の枠組みである HCAPO を提案する。HCAPO は、LLM自体を事後(post-hoc)の critic として用い、遡及的推論(hindsight reasoning)によってステップごとのQ値を洗練する。さらに、HCAPO のマルチスケール優位度(advantage)メカニズムは、重要な意思決定状態において不正確な価値ベースラインを効果的に補完する。WebShop と ALFWorld を含む3つの困難なベンチマークにわたる評価により、HCAPO が最先端のRL手法を一貫して上回ることが示される。とりわけ、HCAPO は Qwen2.5-7B-Instruct モデルを用いた場合に、GRPO に比べて WebShop で成功率を 7.7% 向上し、ALFWorld では 13.8% 向上している。これらの結果は、HCAPO が探索効率を大きく改善し、簡潔な意思決定を促進し、複雑で長いホライズンのタスクにおいてスケーラビリティを確保することを示唆している。
対象分野: 機械学習 (cs.LG); 人工知能 (cs.AI)
引用(Cite as): arXiv:2603.08754 [cs.LG]
  (または arXiv:2603.08754v1 [cs.LG] はこのバージョン用)
  https://doi.org/10.48550/arXiv.2603.08754
詳細を学ぶためにフォーカス
DataCite を通じて発行された arXiv DOI

投稿履歴

差出人: Huize Tan [メールを表示]
[v1] 2026年3月7日 土 06:05:20 UTC (363 KB)
本文(フルテキスト)リンク:

論文にアクセス:

    Hui-Ze Tan と他9名の著者による論文「長いホライズンのLLMエージェントに対する hindsight credit assignment(遡及的クレジット割当て)」のPDFを表示
  • PDFを表示
  • HTML(実験的)
  • TeXソース
現在の閲覧コンテキスト:
cs.LG
切り替えて閲覧するには:
BibTeX の引用をエクスポート 読み込み中...

BibTeX 形式の引用

×
提供データ:

ブックマーク

BibSonomy ロゴ Reddit ロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え
Bibliographic Explorer (Explorer とは?)
Connected Papers の切り替え
Connected Papers (Connected Papers とは?)
Litmaps の切り替え
Litmaps (Litmaps とは?)
scite.ai の切り替え
scite Smart Citations (スマート引用とは?)
コード、データ、メディア

本論文に関連付けられたコード、データ、メディア

alphaXiv の切り替え
alphaXiv (alphaXiv とは?)
コードへのリンクの切り替え
論文向け CatalyzeX コードファインダー (CatalyzeX とは?)
返却形式: {"translated": "翻訳されたHTML"}
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
コードへのリンク トグル
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ

デモ

Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
関連論文

レコメンダーおよび検索ツール

Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
CORE レコメンダーのトグル
CORE レコメンダー (CORE とは?)
IArxiv リコメンダーの切り替え
IArxiv レコメンダー (IArxiv とは?)
arXivLabs について

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で直接新しい arXiv の機能を開発し、共有できるようにするためのフレームワークです。

arXivLabs と連携している個人および組織の双方が、オープンさ、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてこれらを大切にしてきました。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ協働します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs について詳しく知る

返却形式: {"translated": "翻訳されたHTML"}