LLMにおけるCFG解釈の診断

arXiv cs.AI / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、与えられた新しい文脈自由文法(CFG)に対して、LLMがその場(in-context)で解釈者として機能し、構文的に妥当で動作的に機能し、かつ意味的に忠実な出力を生成できるかを評価する。
  • RoboGridという枠組みを提案し、再帰の深さ、式の複雑さ、表面スタイルの違いを用いた制御的なストレステストによって、構文・挙動・意味を切り分けて検証する。
  • 実験では、表面的な構文は保てる一方で、構造的な意味の保持が崩れていく「階層的な劣化」が一貫して観察され、特に深い再帰や高い分岐の条件で失敗が顕著になる。
  • Chain-of-Thought(CoT)による部分的な緩和は見られるが、構造密度が高い場合や極端な深さでは意味整合が崩壊する。
  • 「Alien」レキシコンを用いた結果、モデルは純粋な記号的な帰納よりもキーワードからの意味のブートストラップに依存しており、文法に依存しないエージェントに必要な階層的な状態追跡の不足を示している。

要旨: LLMがエージェント的システムへますます統合されるにつれ、それらは動的に定義される機械解釈可能なインターフェースに従う必要があります。私たちはLLMを文脈内インタープリタとして評価します。すなわち、新規の文脈自由文法が与えられたとき、LLMは文法的に正しく、ふるまいとして機能し、そして意味的に忠実な出力を生成できるのでしょうか。私たちはRoboGridというフレームワークを導入し、再帰の深さ、式の複雑さ、表層スタイルの制御されたストレステストによって、構文・ふるまい・意味を切り離します。実験の結果、首尾一貫した階層的な劣化が明らかになりました。すなわち、LLMはしばしば表層構文を維持するものの、構造的な意味を保持できないのです。CoT推論によって部分的に緩和されるにもかかわらず、性能は構造密度、具体的には深い再帰と高い分岐数のもとで崩壊し、極端な深さでは意味整合が消失します。さらに、「Alien」レキシコンの結果から、LLMは純粋な記号的帰納というよりも、キーワードからの意味的なブートストラップに依存していることが示されます。これらの知見は、信頼できる、文法に依存しないエージェントに必要な階層的状態追跡における重要なギャップを特定するものです。