長期ホライズンLLMエージェントのための振り返りクレジットアサインメント

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

大規模言語モデル（LLM）エージェントは、報酬がまばらなため、長期的かつ多段階のタスクにおけるクレジットアサインメントに苦戦しており、これが正確なQ値推定や価値ベースラインの整合性の課題につながっている。
提案されたHCAPOフレームワークは、LLM自体を事後批評者として利用してステップレベルのQ値を洗練させる振り返りクレジットアサインメントを導入し、マルチスケールアドバンテージ機構を組み込んで価値ベースラインを改善する。
WebShopやALFWorldなどのベンチマーク評価で、HCAPOは最先端の強化学習手法を上回り、GRPOベースラインに対してそれぞれ7.7%および13.8%の成功率向上を示している。
HCAPOは探索効率を高め、簡潔な意思決定を促進し、複雑かつ長期的なタスクにもスケール可能であり、LLMエージェント性能における大きな前進を示している。
本研究は、RLに基づくLLMエージェントのクレジットアサインメントにおける根本的なボトルネックを解決し、連続的意思決定問題におけるより信頼性が高くスケール可能な性能を可能にする。

コンピュータサイエンス > 機械学習

arXiv:2603.08754 (cs)

[2026年3月7日に投稿]

題目:長いホライズンのLLMエージェントに対する hindsight credit assignment（遡及的クレジット割当て）

著者:Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li

Hui-Ze Tan と他9名の著者による論文「長いホライズンのLLMエージェントに対する hindsight credit assignment（遡及的クレジット割当て）」のPDFを表示

PDFを表示 HTML（実験的）

要旨:大規模言語モデル（LLM）エージェントは、報酬が疎であるため、長いホライズンかつ多段階のタスクにおいて重大なクレジット割当ての課題に直面することが多い。Group Relative Policy Optimization（GRPO）のような既存の value-free 手法には、2つの根本的なボトルネックがある。すなわち、ステップごとのQ値推定の不正確さ、ならびに中間状態に対する価値ベースラインの不整合である。これらの制約に対処するために、我々は、LLMエージェントへ遡及的クレジット割当てを統合することを目的とした最初の枠組みである HCAPO を提案する。HCAPO は、LLM自体を事後（post-hoc）の critic として用い、遡及的推論（hindsight reasoning）によってステップごとのQ値を洗練する。さらに、HCAPO のマルチスケール優位度（advantage）メカニズムは、重要な意思決定状態において不正確な価値ベースラインを効果的に補完する。WebShop と ALFWorld を含む3つの困難なベンチマークにわたる評価により、HCAPO が最先端のRL手法を一貫して上回ることが示される。とりわけ、HCAPO は Qwen2.5-7B-Instruct モデルを用いた場合に、GRPO に比べて WebShop で成功率を 7.7% 向上し、ALFWorld では 13.8% 向上している。これらの結果は、HCAPO が探索効率を大きく改善し、簡潔な意思決定を促進し、複雑で長いホライズンのタスクにおいてスケーラビリティを確保することを示唆している。

対象分野:	機械学習 (cs.LG); 人工知能 (cs.AI)
引用（Cite as）:	arXiv:2603.08754 [cs.LG]
	(または arXiv:2603.08754v1 [cs.LG] はこのバージョン用)
	https://doi.org/10.48550/arXiv.2603.08754 詳細を学ぶためにフォーカス DataCite を通じて発行された arXiv DOI

投稿履歴

差出人: Huize Tan [メールを表示]
[v1] 2026年3月7日土 06:05:20 UTC (363 KB)

本文（フルテキスト）リンク:

論文にアクセス:

Hui-Ze Tan と他9名の著者による論文「長いホライズンのLLMエージェントに対する hindsight credit assignment（遡及的クレジット割当て）」のPDFを表示

PDFを表示
HTML（実験的）
TeXソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.LG

< 前へ | 次へ >

new | recent | 2026-03

切り替えて閲覧するには：

cs
cs.AI

参考文献 & 引用

BibTeX の引用をエクスポート読み込み中...

BibTeX 形式の引用

提供データ：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え

Bibliographic Explorer (Explorer とは？)

Connected Papers の切り替え

Connected Papers (Connected Papers とは？)

Litmaps の切り替え

Litmaps (Litmaps とは？)

scite.ai の切り替え

scite Smart Citations (スマート引用とは？)

コード、データ、メディア

本論文に関連付けられたコード、データ、メディア

alphaXiv の切り替え

alphaXiv (alphaXiv とは？)

コードへのリンクの切り替え

論文向け CatalyzeX コードファインダー (CatalyzeX とは？)

返却形式: {"translated": "翻訳されたHTML"}

DagsHub トグル

DagsHub (DagsHub とは？)

GotitPub トグル

Gotit.pub (GotitPub とは？)

Huggingface トグル

Hugging Face (Huggingface とは？)

コードへのリンクトグル

Papers with Code (Papers with Code とは？)

ScienceCast トグル

ScienceCast (ScienceCast とは？)

デモ

Replicate トグル

Replicate (Replicate とは？)

Spaces トグル

Hugging Face Spaces (Spaces とは？)

Spaces トグル

TXYZ.AI (TXYZ.AI とは？)

レコメンダーおよび検索ツール

Influence Flower へのリンク

Influence Flower (Influence Flower とは？)

CORE レコメンダーのトグル

CORE レコメンダー (CORE とは？)

IArxiv リコメンダーの切り替え

IArxiv レコメンダー (IArxiv とは？)

著者
掲載先
所属機関
トピック

arXivLabs について

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で直接新しい arXiv の機能を開発し、共有できるようにするためのフレームワークです。

arXivLabs と連携している個人および組織の双方が、オープンさ、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてこれらを大切にしてきました。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ協働します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか？ arXivLabs について詳しく知る。

この論文のどの著者が推している人（endorsers）ですか？ | MathJax を無効化（MathJax とは？）

返却形式: {"translated": "翻訳されたHTML"}

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

長期ホライズンLLMエージェントのための振り返りクレジットアサインメント

要点

コンピュータサイエンス > 機械学習

題目:長いホライズンのLLMエージェントに対する hindsight credit assignment（遡及的クレジット割当て）

投稿履歴

論文にアクセス:

参考文献 & 引用

BibTeX 形式の引用

ブックマーク

書誌および引用ツール

本論文に関連付けられたコード、データ、メディア

デモ

レコメンダーおよび検索ツール

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer