ハイブリッド大規模言語モデル(LLM)-シンボリック計画とLLMガイド付き強化学習による新規性適応
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、計画ドメインが新規オブジェクトに対応するために必要なオペレーターを欠く場合、オープンワールド環境で自律エージェントが新奇性に直面して計画を見つける能力が阻害される問題に対処します。
- 新奇オブジェクトを扱うために、ニューラル-シンボリックアーキテクチャがシンボリック計画、強化学習、および大規模言語モデルを統合することを提案します。
- LLM は欠落しているオペレーターを識別するための常識推論を提供し、シンボリックAIプランナーを用いて計画を生成し、新たに識別されたオペレーターの学習を指導する報酬関数を作成します。
- この手法は、連続的なロボットドメインにおけるオペレーター発見およびオペレーター学習の最先端手法を上回ると報告されています。
要旨: 動的なオープンワールド環境において、自律エージェントはしばしば新奇性に遭遇し、それが目標を達成するための計画を見つける能力を妨げます。具体的には、ロボットの計画ドメインが環境中の新規オブジェクトと適切に相互作用することを可能にするオペレーターを欠いている場合、従来のシンボリックプランナーは計画を生成できません。我々は、シンボリック計画、強化学習、および大規模言語モデル(LLM)を統合して、新規オブジェクトの扱いを学習するニューラル-シンボリックアーキテクチャを提案します。特に、LLM の常識推論能力を活用して欠落しているオペレーターを識別し、シンボリックAIプランナーを用いて計画を生成し、強化学習エージェントが新たに特定したオペレーターの制御方針を学習するための報酬関数を作成します。我々の手法は、連続的なロボットドメインにおけるオペレーター発見およびオペレーター学習の最先端手法を上回ると報告されています。