進捗と実現可能性の整合:長期ホライズンLLMエージェントのためのニューラル・シンボリック・デュアルメモリ・フレームワーク

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長期ホライズンのLLMエージェントが失敗するのは、2つの異なる問題によると主張する。すなわち、グローバルな進捗ドリフト(意味的な計画が迷走すること)と、ローカルな実現可能性違反(論理的制約を破る、あるいは不正な状態遷移を行うこと)である。
  • これらの問題を切り離すために、推論中に2つのメモリ機構を並列に動作させるニューラル・シンボリック・デュアルメモリ・フレームワークを提案する。
  • ニューラルな進捗メモリは、成功した軌跡から意味的な「設計図(blueprints)」を学習し、タスク全体の前進を導く。一方、シンボリックな実現可能性メモリは、失敗から生成された実行可能なPython検証関数を用いて、厳密な論理的妥当性確認を行う。
  • ALFWorld、WebShop、TextCraftでの実験により、ベースラインと比べて性能が向上することが示される。具体的には、不正なアクション率が低下し、軌跡の長さも短く、制御されたものになる。

要旨: 大規模言語モデル(LLM)は、身体的な操作やWebとの対話のような長期ホライズンの意思決定タスクにおいて強い可能性を示してきました。しかし、エージェントは複雑な環境において、無限の試行錯誤ループに陥ったり、主目的から逸脱したりすることがしばしばあります。これらの失敗は、2つの基本的な誤り――グローバルな進行ドリフト(global Progress Drift)と、ローカルな実現可能性違反(local Feasibility Violation)――に起因すると考えられます。既存手法は通常、単一のパラダイムで両方の問題を同時に解決しようとします。しかし、これら2つの課題は根本的に異なります。前者は曖昧な意味論的計画に依存し、後者は厳密な論理制約と状態の検証を必要とします。このような単一パラダイムによるアプローチに内在する限界は、既存モデルが長期ホライズンのタスクを扱う上での根本的な課題となっています。この洞察に動機づけられ、意味論的な進行ガイダンスと論理的な実現可能性検証を明示的に切り離す、ニューラル・シンボリック・デュアルメモリ基盤(Neuro-Symbolic Dual Memory Framework)を提案します。具体的には、推論フェーズにおいて、この基盤は2つのメモリ機構を同期的に呼び出します。ひとつは、成功した軌跡からセマンティックな青写真を抽出してグローバルなタスク進行を導く、ニューラルネットワークベースの進行メモリ(Progress Memory)です。もうひとつは、失敗した遷移から合成された実行可能なPython検証関数を用いて厳密な論理検証を行う、シンボリック論理ベースの実現可能性メモリ(Feasibility Memory)です。実験の結果、この方法はALFWorld、WebShop、TextCraftにおいて既存の競合ベースラインを大幅に上回ることが示され、さらに無効な行動率と平均軌跡長を劇的に低減します。