計算機科学 > 機械学習
arXiv:2603.09036 (cs)
[2026年3月10日 提出]
題目:SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成
SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成 について、Renos Zabounidis と他 6 名の著者による論文の PDF を表示
PDF を表示
HTML(実験的)
要旨:LM ベースのエージェントは、高レベルのアクション API が与えられるときに優れた性能を発揮しますが、言語を低レベルの制御へ基盤付け(grounding)することでは苦戦します。先行研究では、LLM にスキルや強化学習(RL)のための報酬関数を生成させることで進めるものがありましたが、それらのワンショット手法では、仕様の誤りを修正するためのフィードバックが欠けています。私たちは、学習されたスキルライブラリを通じて LLM の計画と RL を結合する双方向の枠組みである SCALAR を導入します。LLM は前提条件と効果を伴ってスキルを提案し、RL は各スキルに対する方策を訓練して、実行結果をフィードバックとして返すことで、仕様を反復的に洗練し、初期の誤りに対する頑健性を高めます。重要な軌跡分析(Pivotal Trajectory Analysis)は、RL の軌跡を解析することで LLM の事前知識(prior)を補正します。フロンティア・チェックポインティング(Frontier Checkpointing)は、オプションとして、スキルの境界で環境状態を保存し、サンプル効率を改善します。Craftax において、SCALAR は 88.2% のダイヤ収集を達成し、最高のベースラインに対して 1.9 倍の改善を示し、さらに先行手法がまったく失敗する Gnomish Mines では 9.1% の割合で到達します。
| コメント: | |
| 分野: | 機械学習 (cs.LG) |
| 引用(Cite as): | arXiv:2603.09036 [cs.LG] |
| (または、この版については arXiv:2603.09036v1 [cs.LG]) | |
| https://doi.org/10.48550/arXiv.2603.09036
詳しく学ぶためにフォーカス
DataCite による arXiv 発行 DOI
|
書誌ツール
コード、データ、メディア
デモ
関連論文
About arXivLabs
書誌および引用ツール
書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは何ですか?)
Connected Papers 切り替え
Connected Papers (Connected Papers とは何ですか?)
Litmaps 切り替え
Litmaps (Litmaps とは何ですか?)
scite.ai 切り替え
scite Smart Citations (Smart Citations とは何ですか?)
この記事に関連付けられたコード、データ、メディア
alphaXiv 切り替え
alphaXiv (alphaXiv とは何ですか?)
コードへのリンク 切り替え
論文向けCatalyzeXコードファインダー (CatalyzeX とは何ですか?)
DagsHub トグル
DagsHub (DagsHubとは?)
GotitPub トグル
Gotit.pub (GotitPubとは?)
Huggingface トグル
Hugging Face (Huggingfaceとは?)
コードへのリンク トグル
Papers with Code (Papers with Codeとは?)
ScienceCast トグル
ScienceCast (ScienceCastとは?)
デモ
Replicate トグル
Replicate (Replicateとは?)
Spaces トグル
Hugging Face Spaces (Spacesとは?)
Spaces トグル
TXYZ.AI (TXYZ.AIとは?)
レコメンダーと検索ツール
Influence Flowerへのリンク
Influence Flower (Influence Flowerとは?)
Coreレコメンダー トグル
CORE Recommender (COREとは?)
IArxiv レコメンダー切り替え
IArxiv レコメンダー
(IArxiv とは?)
arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト
arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするための仕組みです。
arXivLabs に取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それらを重視してきました。arXiv はこれらの価値観に取り組んでおり、それらを遵守するパートナーとだけ協働します。
arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか? arXivLabs について詳しく知る。




