接頭辞パースは単なるパースである

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、接頭辞パース(与えられた入力接頭辞が、その文法で生成される完全な文字列へ拡張できるかの判定)を扱い、重み付き設定では接頭辞確率も計算しますが、これは言語モデリングや心理言語学的分析、LLMからの文法制約付き生成などで重要です。
  • 著者らは「接頭辞文法変換」を提案し、元の文法の文字列が持つ接頭辞そのものを生成する別の文法を構成することで、接頭辞パースを通常の(ordinary)パースへと還元します。
  • 変換後の文法に既存の最適化済みパースアルゴリズムを適用することで、接頭辞パース専用の独自アルゴリズムを作る必要がなく、しかも変換後の文法サイズは入力に対して小さな倍率に留まるため効率的です。
  • さらに、アルゴリズム微分(algorithmic differentiation)を用いた戦略により、次トークン重みベクトル(1トークン拡張すべての重み/確率)を計算する方法も示され、効率的な次トークン予測を支えます。
  • 総じて、本研究は接頭辞パースと次トークン重み付けのための汎用的で実用的な枠組みを提供し、既存のパース実装にそのまま組み込めることを意図しています。

Abstract

接頭辞パースは、入力の接頭辞が、与えられた文法によって生成される完全な文字列へと拡張可能かどうかを問います。重み付き設定では、このことに加えて、文脈自由言語モデリング、心理言語学的分析、そして大規模言語モデルからの構文的制約付き生成の中心となる、接頭辞確率も提供します。私たちは、接頭辞パースを通常のパースへ効率的に還元する「接頭辞文法変換」を導入します。文法が与えられたとき、提案手法は、その元の文字列が生成する接頭辞をちょうど生成する別の文法を構成します。こうして得られた変換後の文法に対して、任意の通常のパースアルゴリズムを変更なく適用することで、接頭辞パースは解決されます。この還元は、優美で実用的です。変換後の文法は入力に対してわずかな倍率でしか大きくならず、最適化された実装をそのまま利用できるため、専用の接頭辞パースアルゴリズムを作る必要がありません。また、次トークンの重みベクトル、すなわちすべての1トークン拡張に対する接頭辞重みを計算するための戦略、アルゴリズム的微分に基づく方法も提示します。これにより、次トークンを効率的に予測できます。これらの寄与によって、接頭辞パースのための、単純で一般的かつ効率的な枠組みが得られます。