自然言語から検証済みコードへ:Dafnyベースの形式検証を用いたAI支援の問題からコード生成に向けて
arXiv cs.AI / 2026/4/27
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMがソフトウェア工学を自動化する可能性がある一方で、生成コードが誤りやハルシネーションによって正しさ要件を満たせないことが多い点を指摘しています。
- NL2VC-60データセット(60の複雑なアルゴリズム問題)を提示し、自然言語の問題文からDafnyに基づく正確な形式仕様と実装ロジックへの変換方法を評価します。
- 7種類のオープンウェイトLLMに対して、文脈なし・構造的アンカーを与えるシグネチャ付き・Dafny検証器のフィードバックを使う反復的自己修復という段階的プロンプトを比較し、その結果、文脈なしは極めて不調であることが分かります。
- シグネチャによる誘導と、Dafny駆動の自己修復を組み合わせることで大幅に改善し、Gemma 4-31Bでは検証成功率90.91%を達成し、GPT-OSS 120Bもシグネチャ誘導フィードバックにより成功率0%から81.82%へ大きく伸びました。
- ゼロでも形式的に“通るだけ”の無意味な検証(自明な仕様で合格するケース)を防ぐため、uDebugによる機能検証を用いて、検証器の受理だけに留まらない高い保証を目指します。




