選ばれなかった道:プログラム実行の推論における二重性

arXiv cs.LG / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文は、LLMをコーディングに実際に導入するには、表面的なパターン合わせではなく、プログラム実行を因果的に理解することが必要だと主張している。
  • 既存のベンチマークは、コードカバレッジや出力など特定の入力に紐づく性質を測ることが多いため、動的推論の見方が狭く、データ汚染の影響も受けやすいと批判している。
  • 著者らは、実行理解のための「二重性」フレームワークとして、(i) 与えた入力で観測される振る舞いを予測する課題と、(ii) 目標とする振る舞いに到達するために入力をどう変異させるべきかを推論する課題を組み合わせて行うことを提案している。
  • その考えを DexBench に実装し(445のペア事例)、13のLLMを評価した結果、二重経路の推論が動的コード理解の頑健で識別力のある代理指標になることを示している。

概要: 大規模言語モデル(LLM)は、多様なコーディング課題において顕著な能力を示してきました。しかし、その導入には、表面的なパターンに頼るのではなく、プログラムの実行を真に理解することが必要です。既存のベンチマークは主として、特定の入力に結び付いたプログラムの性質(例: コードカバレッジ、プログラム出力)を予測することに焦点を当てています。その結果、動的なコード推論に関する見方が狭くなり、データ汚染の影響を受けやすくなります。私たちは、プログラム実行の理解には、その本質的な二面性を、2つの補完的な推論課題を通じて評価することが必要だと主張します:(i)与えられた入力に対して、プログラムの観測される振る舞いを予測すること、そして(ii)入力が特定の振る舞い目標に向けてどのように変異されなければならないかを推論すること、です。これら2つの課題は、実行フローに関するモデルの因果的理解を共同で検証します。私たちはこの二面性を、445組のペアインスタンスからなるベンチマークであるDexBenchで実装し、13のLLMを評価しました。結果は、二経路の推論が、動的コード理解のための頑健で識別力のある代理指標を提供することを示しています。