SCALAR: LLM誘導の記号的プランニングと深層強化学習によるスキルの学習と合成

arXiv cs.LG / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • SCALARは、学習済みスキルライブラリを介して大規模言語モデル(LLM)のプランニングと深層強化学習(RL)を統合する新しい双方向フレームワークであり、スキルの合成と実行を向上させます。
  • 以前の一回限りのアプローチとは異なり、SCALARはRLポリシーが実行結果に基づくフィードバックを提供することでスキルの仕様を反復的に改良し、初期の仕様誤差に対する堅牢性を高めます。
  • 主要な技術革新には、RL軌道のレビューを通じてLLMスキルの事前分布を修正するPivotal Trajectory Analysisと、スキルの境界で環境状態を保存しサンプル効率を向上させるFrontier Checkpointingが含まれます。
  • Craftax環境での実験結果は、SCALARが88.2%のダイヤモンド収集率を達成し、ベースラインのほぼ2倍の性能を示し、従来法が失敗するGnomish Minesといった複雑な目標にも成功裏に到達することを示しています。
  • SCALARは、記号的プランニングと深層RL手法の相乗効果を用いて、言語ベースのプランニングを低レベル制御ポリシーに確実に結びつける上で大きな前進を意味します。

計算機科学 > 機械学習

arXiv:2603.09036 (cs)
[2026年3月10日 提出]

題目:SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成

SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成 について、Renos Zabounidis と他 6 名の著者による論文の PDF を表示
PDF を表示 HTML(実験的)
要旨:LM ベースのエージェントは、高レベルのアクション API が与えられるときに優れた性能を発揮しますが、言語を低レベルの制御へ基盤付け(grounding)することでは苦戦します。先行研究では、LLM にスキルや強化学習(RL)のための報酬関数を生成させることで進めるものがありましたが、それらのワンショット手法では、仕様の誤りを修正するためのフィードバックが欠けています。私たちは、学習されたスキルライブラリを通じて LLM の計画と RL を結合する双方向の枠組みである SCALAR を導入します。LLM は前提条件と効果を伴ってスキルを提案し、RL は各スキルに対する方策を訓練して、実行結果をフィードバックとして返すことで、仕様を反復的に洗練し、初期の誤りに対する頑健性を高めます。重要な軌跡分析(Pivotal Trajectory Analysis)は、RL の軌跡を解析することで LLM の事前知識(prior)を補正します。フロンティア・チェックポインティング(Frontier Checkpointing)は、オプションとして、スキルの境界で環境状態を保存し、サンプル効率を改善します。Craftax において、SCALAR は 88.2% のダイヤ収集を達成し、最高のベースラインに対して 1.9 倍の改善を示し、さらに先行手法がまったく失敗する Gnomish Mines では 9.1% の割合で到達します。
コメント:
分野: 機械学習 (cs.LG)
引用(Cite as): arXiv:2603.09036 [cs.LG]
  (または、この版については arXiv:2603.09036v1 [cs.LG])
  https://doi.org/10.48550/arXiv.2603.09036
詳しく学ぶためにフォーカス
DataCite による arXiv 発行 DOI

提出履歴

作成者: Renos Zabounidis [メールを表示]
[v1] 2026年3月10日 火 00:11:58 UTC(21,022 KB)
全文リンク:

論文へのアクセス:

    SCALAR: LLM が導く記号的計画と深層強化学習の基盤付けによるスキルの学習と合成 について、Renos Zabounidis と他 6 名の著者による論文の PDF を表示
  • PDF を表示
  • HTML(実験的)
  • TeX ソース
現在の閲覧コンテキスト:
cs.LG
< prev   |   next >
切り替えて閲覧するには:
cs

References & Citations

BibTeX引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供データ元:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは何ですか?)
Connected Papers 切り替え
Litmaps 切り替え
scite.ai 切り替え
scite Smart Citations (Smart Citations とは何ですか?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv 切り替え
コードへのリンク 切り替え
論文向けCatalyzeXコードファインダー (CatalyzeX とは何ですか?)
DagsHub トグル
DagsHub (DagsHubとは?)
GotitPub トグル
Gotit.pub (GotitPubとは?)
Huggingface トグル
Hugging Face (Huggingfaceとは?)
コードへのリンク トグル
Papers with Code (Papers with Codeとは?)
ScienceCast トグル
ScienceCast (ScienceCastとは?)
デモ

デモ

Replicate トグル
Replicate (Replicateとは?)
Spaces トグル
Hugging Face Spaces (Spacesとは?)
Spaces トグル
TXYZ.AI (TXYZ.AIとは?)
関連論文

レコメンダーと検索ツール

Influence Flowerへのリンク
Influence Flower (Influence Flowerとは?)
Coreレコメンダー トグル
CORE Recommender (COREとは?)
IArxiv レコメンダー切り替え
IArxiv レコメンダー (IArxiv とは?)
About arXivLabs

arXivLabs: コミュニティの協力者とともに行う実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするための仕組みです。

arXivLabs に取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それらを重視してきました。arXiv はこれらの価値観に取り組んでおり、それらを遵守するパートナーとだけ協働します。

arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか? arXivLabs について詳しく知る

返却形式: {"translated": "翻訳されたHTML"}

SCALAR: LLM誘導の記号的プランニングと深層強化学習によるスキルの学習と合成 | AI Navigate