コンピュータサイエンス > 機械学習
arXiv:2603.08754 (cs)
[2026年3月7日に投稿]
題目:長いホライズンのLLMエージェントに対する hindsight credit assignment(遡及的クレジット割当て)
著者:Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li
Hui-Ze Tan と他9名の著者による論文「長いホライズンのLLMエージェントに対する hindsight credit assignment(遡及的クレジット割当て)」のPDFを表示
PDFを表示
HTML(実験的)
要旨:大規模言語モデル(LLM)エージェントは、報酬が疎であるため、長いホライズンかつ多段階のタスクにおいて重大なクレジット割当ての課題に直面することが多い。Group Relative Policy Optimization(GRPO)のような既存の value-free 手法には、2つの根本的なボトルネックがある。すなわち、ステップごとのQ値推定の不正確さ、ならびに中間状態に対する価値ベースラインの不整合である。これらの制約に対処するために、我々は、LLMエージェントへ遡及的クレジット割当てを統合することを目的とした最初の枠組みである HCAPO を提案する。HCAPO は、LLM自体を事後(post-hoc)の critic として用い、遡及的推論(hindsight reasoning)によってステップごとのQ値を洗練する。さらに、HCAPO のマルチスケール優位度(advantage)メカニズムは、重要な意思決定状態において不正確な価値ベースラインを効果的に補完する。WebShop と ALFWorld を含む3つの困難なベンチマークにわたる評価により、HCAPO が最先端のRL手法を一貫して上回ることが示される。とりわけ、HCAPO は Qwen2.5-7B-Instruct モデルを用いた場合に、GRPO に比べて WebShop で成功率を 7.7% 向上し、ALFWorld では 13.8% 向上している。これらの結果は、HCAPO が探索効率を大きく改善し、簡潔な意思決定を促進し、複雑で長いホライズンのタスクにおいてスケーラビリティを確保することを示唆している。
| 対象分野: | 機械学習 (cs.LG); 人工知能 (cs.AI) |
| 引用(Cite as): | arXiv:2603.08754 [cs.LG] |
| (または arXiv:2603.08754v1 [cs.LG] はこのバージョン用) | |
| https://doi.org/10.48550/arXiv.2603.08754
詳細を学ぶためにフォーカス
DataCite を通じて発行された arXiv DOI
|
書誌ツール
コード、データ、メディア
返却形式: {"translated": "翻訳されたHTML"}
デモ
関連論文
arXivLabs について
書誌および引用ツール
書誌エクスプローラーの切り替え
Bibliographic Explorer (Explorer とは?)
Connected Papers の切り替え
Connected Papers (Connected Papers とは?)
Litmaps の切り替え
Litmaps (Litmaps とは?)
scite.ai の切り替え
scite Smart Citations (スマート引用とは?)
本論文に関連付けられたコード、データ、メディア
alphaXiv の切り替え
alphaXiv (alphaXiv とは?)
コードへのリンクの切り替え
論文向け CatalyzeX コードファインダー (CatalyzeX とは?)
DagsHub トグル
DagsHub (DagsHub とは?)
GotitPub トグル
Gotit.pub (GotitPub とは?)
Huggingface トグル
Hugging Face (Huggingface とは?)
コードへのリンク トグル
Papers with Code (Papers with Code とは?)
ScienceCast トグル
ScienceCast (ScienceCast とは?)
デモ
Replicate トグル
Replicate (Replicate とは?)
Spaces トグル
Hugging Face Spaces (Spaces とは?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは?)
レコメンダーおよび検索ツール
Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
CORE レコメンダーのトグル
CORE レコメンダー (CORE とは?)
IArxiv リコメンダーの切り替え
IArxiv レコメンダー
(IArxiv とは?)
arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト
arXivLabs は、協力者が当社のウェブサイト上で直接新しい arXiv の機能を開発し、共有できるようにするためのフレームワークです。
arXivLabs と連携している個人および組織の双方が、オープンさ、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてこれらを大切にしてきました。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ協働します。
arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs について詳しく知る。