AutoPyVerifier：大規模言語モデル出力向けのコンパクトな実行可能検証器を学習する

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、LLMの出力と目的ラベルから、正しさなどの「目標となる検証目的」に近づくように、最小限の決定的Python検証器セットを自動で学習するAutoPyVerifierを提案する。
AutoPyVerifierは、まずLLMで検証器候補関数を合成し、その後DAG（有向非巡回グラフ）上での探索により候補の改良と選定を行って、合成検証器セットを最適化する。
数学的推論、コーディング、関数呼び出し、指示追従といった複数のベンチマークで、初期のLLM生成検証器セットに比べてF1が最大55.0点改善した。
有効な検証ターゲットはベンチマークやモデルによって変わること、またDAGベースの探索が学習された検証器をより構造的で意味的に根ざしたチェックへ寄せることが示される。
発見された検証器セットをLLMの外部ツールとして提示すると、下流タスクの精度が最大17.0点改善し、コードも公開されている。

要旨: 検証は、強化学習に基づく訓練と、大規模言語モデル（LLM）の推論時制御の両方にとって中核になりつつある。しかし、現行の検証器には本質的なトレードオフがある。すなわち、LLMベースの検証器は表現力が高い一方で制御が難しく、誤りを起こしやすい。これに対し、決定論的な実行可能検証器は信頼性と解釈可能性が高いが、能力がしばしば限られる。そこで次の問いを研究する。すなわち、目的語（正しさなど）に対する、LLM出力とラベルからなる開発セットが与えられたとき、その目的語を共同で満たすことがどれほど近くなるかを重視して、最小限のPython検証器の集合を自動的に誘導できるだろうか。我々はAutoPyVerifierという枠組みを提案する。AutoPyVerifierは、LLMを用いて検証器関数の候補を合成し、その後、有向非巡回グラフ（DAG）上での探索によってそれらを洗練する。DAGを辿ることで、AutoPyVerifierは決定論的で実行可能な検証器の探索空間を体系的に検討し、目標となる目的語を最もよく近似するような、コンパクトな検証器集合を選択する。複数の最先端LLMに対する数学的推論、コーディング、関数呼び出し、指示追従のベンチマークにおいて、AutoPyVerifierは、最初のLLM生成の検証器集合に比べて、目標目的の予測を最大55.0 F1ポイント改善する。追加の分析では、有用な検証対象はベンチマークやモデルによって異なること、またDAGベースの探索が学習された検証器集合を、より構造的かつ意味に根ざしたチェックへとシフトさせることが示される。さらに、発見された検証器集合を外部ツールとしてLLMに提示すると、下流タスクの精度が最大17.0ポイント向上することも示す。我々はコードを公開する