SolidCoder：具体的な実行でLLMによるコード生成の「心的シミュレーションと現実のギャップ」を埋める

arXiv cs.AI / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

この論文は、LLMのコード生成における「Mental-Reality Gap（心的シミュレーションと現実のギャップ）」を指摘し、モデルが実行トレースを幻覚して誤ったコードを自信たっぷりに検証してしまうことを明らかにしています。
SolidCoderは「想像するな—実行せよ」を原則に、仕様ギャップ（計画段階でエッジケースを見落とす問題）と検証ギャップ（バグのあるコードに対して正しい挙動をでっち上げる問題）の両方に対処します。
SOLIDアーキテクチャでは、アルゴリズム設計の前にエッジケースへの意識を高め、想像されたトレースの代わりに、プロパティベースのオラクルに導かれるサンドボックス実行で置き換えます。
GPT-4oでの実験では、HumanEvalで95.7%（pass@1）、CodeContestsで77.0%、APPSで26.7%を達成し、アブレーションではエッジケースへの意識が最大の改善要因であることが示されています。
さらに、この手法はRLで事後学習したモデルにも一般化され、著者らは将来の研究のためにコードとフレームワークを公開します。

要旨: 最先端のコード生成フレームワークは、メンタル・シミュレーションに依存しています。そこでは、LLMが内部で実行をトレースし、正しさを検証するために思考上で推論します。私たちは、根本的な制約を明らかにします。それは、メンタル・リテラリティー・ギャップ（Mental-Reality Gap）です。モデルが実行トレースを幻覚し、その誤ったコードを自信をもって検証してしまう現象です。このギャップは、互いに直交する2つの次元に沿って現れます。ひとつは、仕様ギャップ（Specification Gap）で、計画の段階でエッジケースを見落とします。もうひとつは、検証ギャップ（Verification Gap）で、欠陥のあるコードに対して正しい挙動を幻覚します。私たちは、SolidCoderを提案します。シンプルな原則は「想像するな――実行せよ」です。S.O.L.I.D.アーキテクチャは、アルゴリズム設計の前にエッジケースへの注意を強制することで仕様ギャップと検証ギャップの両方に対処し、さらに、想像上のトレースを、プロパティベースのオラクルまたはサンドボックス化された実行に置き換えることで対応します。GPT-4oを用いることで、SolidCoderは最先端のpass@1性能を達成します。HumanEvalで95.7%（+0.6%p）、CodeContestsで77.0%（+4.3%p）、APPSで26.7%（+3.4%p）です。アブレーションの結果、最大の個別改善はエッジケースへの注意によるものであり、一方で、実行に根拠を与えることは、仕様改善では対処できない類型的に異なる誤りを捕捉することが分かりました。これらの改善は、RLで事後学習したモデルにも一般化されます。したがって、2つのギャップ次元を橋渡しすることが、頑健なコード合成に不可欠であることが裏付けられます。私たちは、将来の研究を促進するために、コードとフレームワークを公開します。