理論から実践へ：CAPECおよびCWEフレームワークのためのLLMによるコード生成

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、CAPECおよびCWEの説明と脆弱なコード断片を対応付けた新しいデータセットを導入し、既存の脆弱性データセットには詳細なコードから脆弱性への対応付けが欠けているという限界に対処する。
GPT-4o、Llama、およびClaudeを用いて、特定のCAPEC/CWEドキュメントに記載された脆弱性と整合するように、的を絞った例を生成する。
予備的な結果では、生成されたコードが3つのLLM間で非常に高い一貫性を示しており、コード出力間で報告されたコサイン類似度は0.98である。
このデータセットには、Java、Python、JavaScriptの各言語にわたる615のCAPECコード断片が含まれており、脆弱性理解に関する研究や、脆弱性検出および修復のためのMLモデルの訓練に向けたリソースとして位置づけられている。

要旨: ソフトウェアシステムの複雑化と規模の増大により、セキュリティ脆弱性を特定し、軽減することの重要性が高まっています。既存のソフトウェア脆弱性データセットは、特定の脆弱性記述に明示的に紐づいた包括的で詳細なコードスニペットを提供する点でしばしば不十分であり、その結果、高度な研究のための有用性が低下し、セキュリティ脆弱性のより深い理解を深める取り組みを妨げています。この課題に対処するために、CAPEC（Common Attack Pattern Enumerations and Classifications）とCWE（Common Weakness Enumeration）の記述に対応する脆弱なコードスニペットの例を提供する新しいデータセットを提案します。生成済み事前学習済みトランスフォーマ（Generative Pre-trained Transformer, GPT）モデルの能力を活用することで、これらの例を生成するための堅牢な手法を開発しました。我々のアプローチでは、GPT-4o、Llama、Claude の各モデルを用いて、CAPECおよびCWEのドキュメントで説明されている特定の脆弱性を示すコードスニペットを生成します。本データセットは、コードにおけるセキュリティ脆弱性の理解を促進するだけでなく、自動的な脆弱性検出と修復に焦点を当てた機械学習モデルを訓練するための有用なリソースとしても機能します。予備的な評価では、大規模言語モデルによって生成されたデータセットが高い精度を示し、脆弱性同定システムの信頼できる参照として機能し得ることが示唆されています。3つのモデルすべてで一貫した結果が得られ、コード間でコサイン類似度は0.98でした。最終的なデータセットは、3つのプログラミング言語（Java、Python、JavaScript）にわたる615個のCAPECコードスニペットからなり、本領域で最も大規模かつ多様なリソースの一つとなっています。