LLM-Flax:大規模言語モデルによる神経記号アプローチでの一般化可能なロボットタスク計画

arXiv cs.RO / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM-Flaxという3段階の神経記号的ロボット・タスク計画フレームワークを提案し、PDDLドメインファイルのみを入力としてローカルで動作するLLMを用いることで、手作業のルール作成と学習データの要件を排除します。
  • 第1段階では、フォーマット検証と自己修正を伴う構造化プロンプトにより、緩和ルールおよび補完ルールを自動生成します。
  • 第2段階では、実行可能性ゲート付きの予算ポリシーにより、各LLM呼び出しの前にAPIのレイテンシコストを明示的に確保し、下流の緩和(フォールバック)が枯渇しないようにします。
  • 第3段階では、ドメイン学習済みGNNの物体スコアリングを、ゼロショットのLLMによる物体重要度スコアリングで置き換え、学習データ不要を実現します。
  • MazeNamoベンチマーク(10x10〜15x15)全体で、平均成功率はSR 0.945(手作業ベースライン0.828)となり、手作業プランナが失敗するケースでも改善が見られる一方、スケール時の主な課題としてコンテキスト長(コンテキストウィンドウ)制約が指摘されています。

概要: 今日、新しいドメインに対して神経記号タスクプランナを展開するには、大きな手作業が必要です。すなわち、ドメインの専門家が緩和(relaxation)ルールと補完(complementary)ルールを作成し、さらに数百の学習問題を解いて、グラフニューラルネットワーク(GNN)によるオブジェクトスコアラを監督する必要があります。本研究では、PDDLドメインファイルのみを与えることでローカルホストされたLLMを用い、これら3つすべての手作業の発生源を排除する3段階フレームワーク「LLM-Flax」を提案します。第1段階では、形式検証と自己修正を伴う構造化プロンプトにより、緩和ルールと補完ルールを自動生成します。第2段階では、実現可能性(feasibility)でゲートされた予算ポリシーによるLLM主導の失敗回復を導入します。このポリシーは、各LLM呼び出しの前にAPIの遅延(レイテンシ)コストを明示的に留保し、下流の緩和フォールバックが枯渇してしまうことを防ぎます。第3段階では、ドメインで訓練したGNNを完全に置き換え、学習データ不要のゼロショットLLMによるオブジェクト重要度スコアリングを用います。MazeNamoベンチマークの10x10、12x12、15x15のグリッドに対して、3段階すべてを評価します(計8つのベンチマーク)。LLM-Flaxは平均SR 0.945を達成し、手作業ベースラインの0.828(+0.117)に対して、8つのすべてのベンチマークで手作業ルールに一致、または上回ります。12x12 Expertでは、LLM-FlaxはSR 0.000で手作業プランナが完全に失敗するのに対しSR 0.733を達成します。15x15 Hardでは、Manualの0.900に対してSR 1.000を達成します。第3段階は実現可能性を示します(学習データなしで12x12 HardにおけるSR 0.720)が、大規模化に伴うコンテキストウィンドウのボトルネックに直面しており、今後の研究における主要な未解決課題であることを示唆しています。