強化学習におけるLLM誘導によるタスクおよびアフォーダンス（行為の意味）レベル探索

arXiv cs.RO / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボットによる操作におけるサンプル効率を高めるために、LLM計画を用いてタスクレベルとアフォーダンス（行為の意味）レベルの両方で探索を制御する強化学習フレームワーク「LLM-TALE」を提案する。
先行するLLM誘導探索手法の重要な限界、すなわちLLMが意味的には妥当でも物理的に実行不可能な計画を生成しうる点に対処し、LLM-TALEは最適性を前提とせず、オンラインで下位計画の修正を行う。
LLM-TALEは、人間の監督なしにマルチモーダルなアフォーダンスレベルの計画を探索する。これは、人間が与える報酬に依存するアプローチや、最適なLLM生成計画を前提とするアプローチとは対照的である。
標準的な強化学習ベンチマークにおけるピック＆プレース課題での実験により、強力なベースラインと比較してサンプル効率の向上と成功率の高さが示される。
実ロボットでのテストは、有望なゼロショットのsim-to-real（シミュレーションから実機への転移）を示唆しており、著者らはプロジェクトのWebサイトでコードおよび補足資料を提供している。