Solidityスマートコントラクトにおけるエラー検出のためのゼロショット推論アプローチのベンチマーク

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Solidityスマートコントラクト分析において最先端のLLMsをベンチマークし、400件のコントラクトから成るバランスのとれたデータセットを用いて、2つのタスク（エラー検出（バイナリ脆弱性分類）とエラー分類（問題を特定の脆弱性カテゴリへマッピング））を評価している。
ゼロショット、ゼロショット Chain-of-Thought（CoT）、およびゼロショット Tree-of-Thought（ToT）を含むゼロショットプロンプティング戦略を検討している。
エラー検出タスクでは、CoTおよびToTによりリコールが約95-99%へ大幅に増加する一方、通常は適合率が低下し、より感度の高い意思決定モードにおいて偽陽性が増えることを示している。
エラー分類タスクでは、ToTプロンプトの下でClaude 3 Opusが最も高い加重F1スコア（90.8）を達成し、CoTがそれに近い成績を示している。
本研究の結果は、スマートコントラクトにおけるAI支援脆弱性検出における再現率と適合率のトレードオフを浮き彫りにし、高度なプロンプティング手法による顕著な性能向上を示している。

要旨: スマートコントラクトは財務および運用ロジックを組み込むことにより、ブロックチェーンシステムの中核的役割を果たします。それでも、その微妙なセキュリティ欠陥に対する脆弱性は、財務的な損失と信頼の喪失という重大なリスクをもたらします。LLMsは脆弱性検出の自動化に新たな機会を創出しますが、現実世界の文脈でのさまざまなプロンプト戦略とモデル選択の有効性は未だ不確実です。本論文は Solidity スマートコントラクト分析において、400件の契約から成るバランスの取れたデータセットを用いて、2つのタスクの下で最先端のLLMsを評価します： (i) エラー検出、モデルが契約が脆弱かどうかを決定する二値分類、(ii) エラー分類、モデルは予測された問題を特定の脆弱性カテゴリーに割り当てなければなりません。モデルはゼロショットプロンプト戦略を用いて評価され、ゼロショット、ゼロショット Chain-of-Thought (CoT)、およびゼロショット Tree-of-Thought (ToT) を含みます。エラー検出タスクでは、CoTおよびToTはリコールを大幅に向上させ、しばしば ≈95–99％に近づく一方、通常は適合率を低下させ、偽陽性が増える、より感度の高い意思決定領域を示します。エラー分類タスクでは、Claude 3 Opus が ToT プロンプトの下で最も高い加重F1スコア（90.8）を達成し、それに CoT が続きます。