TOSSS: 大規模言語モデル向けのCVEベースのソフトウェアセキュリティベンチマーク
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TOSSS(Two-Option Secure Snippet Selection、二択式セキュアスニペット選択)は、LLMsが安全なコード断片を脆弱なものより選択する能力を評価するためのCVEベースのベンチマークとして提案されている。
- このベンチマークはCVEデータベースを用いており、時間とともに新たに公開された脆弱性を取り込むことができるよう拡張性を持つよう設計されている。
- 0から1までのセキュリティスコアを出力し、1はモデルが常に安全なスニペットを選択することを、0は常に脆弱なスニペットを選択することを意味する。
- 本研究は、C/C++およびJavaに対して、オープンソースおよびクローズドソースの計14モデルを評価し、スコアは0.48から0.89の範囲だった。
- 著者らは、TOSSSがモデルベンチマークレポートにおける補完的なセキュリティ重視指標として機能する可能性があると示唆している。
本文: arXiv:2603.10969v1 アナウンス種別: 新規
要旨: その能力が高まるにつれて、巨大言語モデル(LLMs)は現在、さまざまな産業で使用されています。ソフトウェアエンジニアにとって有用なツールとなり、幅広い開発タスクを支えています。LLMsがソフトウェア開発のワークフローでますます使用されるにつれて、重要な疑問が生じます。LLMsはソフトウェアセキュリティに長けているのか? 同時に、世界中の組織はサイバーセキュリティへ多額の投資を行い、破壊的な攻撃への露出を減らそうとしています。LLMsをソフトウェア工学のワークフローに統合することは、新たな脆弱性を生み出し、既存のセキュリティ対策を弱体化させる可能性があります。
私たちはTOSSS(Two-Option Secure Snippet Selection、二択式セキュアスニペット選択)を導入します。これは、LLMsが安全なコード断片と脆弱なコード断片の間でどちらを選択するかを測定するベンチマークです。既存のLLM向けセキュリティベンチマークは、脆弱性の範囲が限られています。対照的に、TOSSSはCVEデータベースに依存し、時間とともに新たに開示された脆弱性を統合できる拡張可能なフレームワークを提供します。我々のベンチマークは、挙動に基づいて各モデルに0から1のセキュリティスコアを付与します。スコアが1の場合はモデルが常に安全なスニペットを選択し、スコアが0の場合は常に脆弱なものを選択します。我々はC/C++およびJavaコードで、広く使用されている14のオープンソースおよびクローズドソースのモデルを評価し、スコアは0.48から0.89の範囲であることを観察しました。LLMプロバイダはすでに多数のベンチマークスコアを公表しており、TOSSSはこれらのレポートに含める補完的なセキュリティ重視のスコアとなる可能性があります。