GRAIL：ニューラル・シンボリック強化学習のための自律的コンセプト・グラウンディング

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、環境との相互作用を通じて関係概念（例：「左にある」「近い」）を自律的に学習する、ニューラル・シンボリック強化学習向けのフレームワークGRAILを提案する。
手作業で概念を定義する代わりに、GRAILは大規模言語モデルを弱い教師信号として用い、汎用的な関係概念表現を生成し、それを環境固有の意味に合わせて改良する。
この手法は、未確定的（アンダーターミンド）な状況で顕著な課題である「報酬の疎さ」と「概念の意味の不整合」を緩和することを狙っている。
Atariゲーム（Kangaroo、Seaquest、Skiing）での実験では、簡略化された設定においてGRAILが手作り概念を用いるエージェントと同等以上の性能を示し、全環境では「報酬最大化」と「高レベル目標達成」の間のトレードオフを明らかにする。

要旨: ニューラル記号論的強化学習（NeSy-RL）は、記号的推論と勾配ベースの最適化を組み合わせることで、解釈可能で汎用的な方策を実現します。「左にある」や「近くにある」といった関係概念は、エージェントが知覚し、行動する方法を構造化する基礎的な構成要素として機能します。しかし従来のアプローチでは、人間の専門家がこれらの概念を手作業で定義する必要があり、その結果、概念の意味論が環境ごとに異なるため適応性が制限されます。そこで本研究では、GRAIL（Grounding Relational Agents through Interactive Learning）という枠組みを提案します。この枠組みは、環境との相互作用を通じて関係概念を自律的に基底付け（グラウンディング）します。GRAILは大規模言語モデル（LLM）を活用して、弱い教師信号として汎用的な概念表現を与え、その後それらを洗練させて環境固有の意味論を捉えます。この手法は、不確定（underdetermined）な環境で広く見られる疎な報酬シグナルと概念の不整合の両方に対処します。AtariゲームであるKangaroo、Seaquest、Skiingに関する実験では、GRAILが簡略化した設定において、手作業で作られた概念を用いるエージェントと同等、またはそれ以上の性能を示すことが確認され、さらに、報酬の最大化と高次の目標達成の間における情報量の多いトレードオフが、より完全な環境において明らかになります。