記号的同値分割による推論時コード選択

arXiv cs.LG / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「best-of-N」によるLLMコード生成の限界を扱う。これらはしばしば、正しい解を確実に選ぶために高価、または確率的な外部検証器を必要とする。
  • 本論文では、記号的実行を用いて候補プログラムを、意味/振る舞いの同値性に基づいてクラスタリングし、その中で最大の機能的分割から代表を選択する「Symbolic Equivalence Partitioning(記号的同値分割)」を提案する。
  • 記号的なグルーピングを実用可能にするために、記号的実行の際のSMT(Satisfiability Modulo Theories)前提として領域固有の制約を組み込み、経路爆発を抑制し、不正な入力領域の探索を回避する。
  • 実験ではN=10において、この手法によりPass@1精度がHumanEval+で0.728から0.803へ、LiveCodeBenchで0.516から0.604へ向上する。また、初回の候補生成以外の追加のLLM推論を加えない。

要旨: 「ベスト・オブ・N(Best-of-N)」選択は、大規模言語モデル(LLM)を用いたコード生成における、推論時スケーリングとして人気のある手法です。 しかし、正しい解を確実に特定するには、既存手法の多くが高価、または確率的な外部検証器に依存することがしばしばあります。 本論文では、候補プログラムを意味的振る舞いに基づいてグループ化し、優勢な機能的パーティション(領域)から代表を選択するために、記号実行(symbolic execution)を用いる選択フレームワーク「Symbolic Equivalence Partitioning(記号的等価パーティショニング)」を提案します。 グループ化と選択を改善するために、記号実行中に、ドメイン固有の制約を充足可能性判定問題理論(Satisfiability Modulo Theories: SMT)の仮定として符号化し、経路爆発を抑制し、また問題領域の外側で無効な入力を探索しないようにします。 N=10 のとき、当手法は Pass@1 における平均精度を、HumanEval+で 0.728 から 0.803 に、LiveCodeBenchで 0.516 から 0.604 に改善します。 さらに、最初の N 個の候補生成以外に追加の LLM 推論を必要としません。