SCALAR: LLM誘導の記号的プランニングと深層強化学習によるスキルの学習と合成

arXiv cs.LG / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

SCALARは、学習済みスキルライブラリを介して大規模言語モデル（LLM）のプランニングと深層強化学習（RL）を統合する新しい双方向フレームワークであり、スキルの合成と実行を向上させます。
以前の一回限りのアプローチとは異なり、SCALARはRLポリシーが実行結果に基づくフィードバックを提供することでスキルの仕様を反復的に改良し、初期の仕様誤差に対する堅牢性を高めます。
主要な技術革新には、RL軌道のレビューを通じてLLMスキルの事前分布を修正するPivotal Trajectory Analysisと、スキルの境界で環境状態を保存しサンプル効率を向上させるFrontier Checkpointingが含まれます。
Craftax環境での実験結果は、SCALARが88.2％のダイヤモンド収集率を達成し、ベースラインのほぼ2倍の性能を示し、従来法が失敗するGnomish Minesといった複雑な目標にも成功裏に到達することを示しています。
SCALARは、記号的プランニングと深層RL手法の相乗効果を用いて、言語ベースのプランニングを低レベル制御ポリシーに確実に結びつける上で大きな前進を意味します。

計算機科学 > 機械学習

arXiv:2603.09036 (cs)

[2026年3月10日提出]

題目:SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成

著者:Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara

SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成について、Renos Zabounidis と他 6 名の著者による論文の PDF を表示

PDF を表示 HTML（実験的）

要旨:LM ベースのエージェントは、高レベルのアクション API が与えられるときに優れた性能を発揮しますが、言語を低レベルの制御へ基盤付け（grounding）することでは苦戦します。先行研究では、LLM にスキルや強化学習（RL）のための報酬関数を生成させることで進めるものがありましたが、それらのワンショット手法では、仕様の誤りを修正するためのフィードバックが欠けています。私たちは、学習されたスキルライブラリを通じて LLM の計画と RL を結合する双方向の枠組みである SCALAR を導入します。LLM は前提条件と効果を伴ってスキルを提案し、RL は各スキルに対する方策を訓練して、実行結果をフィードバックとして返すことで、仕様を反復的に洗練し、初期の誤りに対する頑健性を高めます。重要な軌跡分析（Pivotal Trajectory Analysis）は、RL の軌跡を解析することで LLM の事前知識（prior）を補正します。フロンティア・チェックポインティング（Frontier Checkpointing）は、オプションとして、スキルの境界で環境状態を保存し、サンプル効率を改善します。Craftax において、SCALAR は 88.2% のダイヤ収集を達成し、最高のベースラインに対して 1.9 倍の改善を示し、さらに先行手法がまったく失敗する Gnomish Mines では 9.1% の割合で到達します。

コメント:
分野:	機械学習 (cs.LG)
引用（Cite as）:	arXiv:2603.09036 [cs.LG]
	(または、この版については arXiv:2603.09036v1 [cs.LG])
	https://doi.org/10.48550/arXiv.2603.09036 詳しく学ぶためにフォーカス DataCite による arXiv 発行 DOI

提出履歴

作成者: Renos Zabounidis [メールを表示]
[v1] 2026年3月10日火 00:11:58 UTC（21,022 KB）

全文リンク:

論文へのアクセス:

SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成について、Renos Zabounidis と他 6 名の著者による論文の PDF を表示

PDF を表示
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.LG

< prev | next >

new | recent | 2026-03

切り替えて閲覧するには：

References & Citations

BibTeX引用をエクスポート読み込み中...

BibTeX形式の引用

提供データ元：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え

書誌エクスプローラー (エクスプローラーとは何ですか？)

Connected Papers 切り替え

Connected Papers (Connected Papers とは何ですか？)

Litmaps 切り替え

Litmaps (Litmaps とは何ですか？)

scite.ai 切り替え

scite Smart Citations (Smart Citations とは何ですか？)

コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv 切り替え

alphaXiv (alphaXiv とは何ですか？)

コードへのリンク切り替え

論文向けCatalyzeXコードファインダー (CatalyzeX とは何ですか？)

DagsHub トグル

DagsHub (DagsHubとは？)

GotitPub トグル

Gotit.pub (GotitPubとは？)

Huggingface トグル

Hugging Face (Huggingfaceとは？)

コードへのリンクトグル

Papers with Code (Papers with Codeとは？)

ScienceCast トグル

ScienceCast (ScienceCastとは？)

デモ

Replicate トグル

Replicate (Replicateとは？)

Spaces トグル

Hugging Face Spaces (Spacesとは？)

Spaces トグル

TXYZ.AI (TXYZ.AIとは？)

レコメンダーと検索ツール

Influence Flowerへのリンク

Influence Flower (Influence Flowerとは？)

Coreレコメンダートグル

CORE Recommender (COREとは？)

IArxiv レコメンダー切り替え

IArxiv レコメンダー (IArxiv とは？)

著者
掲載先
所属機関
トピック

About arXivLabs

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするための仕組みです。

arXivLabs に取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それらを重視してきました。arXiv はこれらの価値観に取り組んでおり、それらを遵守するパートナーとだけ協働します。

arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか？ arXivLabs について詳しく知る。

返却形式: {"translated": "翻訳されたHTML"}

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

note

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

note

ベテランほど、AIを使った方がよい理由

note

「やらなきゃ」を「やりたい！」に変えたら、1日の景色が全く違って見えた話【大人の時間を整える、AI生活デザイン術】

note

死者をAIで「再現」できる時代に、私たちは何を守るべきか

note

SCALAR: LLM誘導の記号的プランニングと深層強化学習によるスキルの学習と合成

要点

計算機科学 > 機械学習

題目:SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成

提出履歴