記号的同値分割による推論時コード選択

arXiv cs.LG / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「best-of-N」によるLLMコード生成の限界を扱う。これらはしばしば、正しい解を確実に選ぶために高価、または確率的な外部検証器を必要とする。
本論文では、記号的実行を用いて候補プログラムを、意味／振る舞いの同値性に基づいてクラスタリングし、その中で最大の機能的分割から代表を選択する「Symbolic Equivalence Partitioning（記号的同値分割）」を提案する。
記号的なグルーピングを実用可能にするために、記号的実行の際のSMT（Satisfiability Modulo Theories）前提として領域固有の制約を組み込み、経路爆発を抑制し、不正な入力領域の探索を回避する。
実験ではN=10において、この手法によりPass@1精度がHumanEval+で0.728から0.803へ、LiveCodeBenchで0.516から0.604へ向上する。また、初回の候補生成以外の追加のLLM推論を加えない。

要旨: 「ベスト・オブ・N（Best-of-N）」選択は、大規模言語モデル（LLM）を用いたコード生成における、推論時スケーリングとして人気のある手法です。しかし、正しい解を確実に特定するには、既存手法の多くが高価、または確率的な外部検証器に依存することがしばしばあります。本論文では、候補プログラムを意味的振る舞いに基づいてグループ化し、優勢な機能的パーティション（領域）から代表を選択するために、記号実行（symbolic execution）を用いる選択フレームワーク「Symbolic Equivalence Partitioning（記号的等価パーティショニング）」を提案します。グループ化と選択を改善するために、記号実行中に、ドメイン固有の制約を充足可能性判定問題理論（Satisfiability Modulo Theories: SMT）の仮定として符号化し、経路爆発を抑制し、また問題領域の外側で無効な入力を探索しないようにします。 N=10 のとき、当手法は Pass@1 における平均精度を、HumanEval+で 0.728 から 0.803 に、LiveCodeBenchで 0.516 から 0.604 に改善します。さらに、最初の N 個の候補生成以外に追加の LLM 推論を必要としません。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

記号的同値分割による推論時コード選択

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」