自動定理証明におけるベンチマークとテスト
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本稿は、自動定理証明における意味的正しさを評価するために、フレームワークTを提案し、後続の従属定理がすべてコンパイルできた場合にのみ正しいとみなす。
- 従来の語彙的類似の代理指標や高コストな手動検査に頼る評価の限界を踏まえ、意味評価はソフトウェアの統合テストに似た形で行うべきだと論じる。
- 著者らは5つの実在のLean 4リポジトリからベンチマークを構築し、合計2,206問に対して1問あたり平均41の後続定理を自動抽出して用意した。
- 実験では、既存の指標では高いコンパイル成功率を示す最先端モデルでも、提案する意味的テスト指標では大幅に低い性能になることが示される。
- 最良のモデルであるClaude-Sonnet-4.5は、自然言語の証明と後続定理を文脈として与えた全セットでTesting Accuracy 38.9%にとどまり、現在の定理生成能力の大きなギャップを浮き彫りにした。



