TOSSS: 大規模言語モデル向けのCVEベースのソフトウェアセキュリティベンチマーク

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

TOSSS（Two-Option Secure Snippet Selection、二択式セキュアスニペット選択）は、LLMsが安全なコード断片を脆弱なものより選択する能力を評価するためのCVEベースのベンチマークとして提案されている。
このベンチマークはCVEデータベースを用いており、時間とともに新たに公開された脆弱性を取り込むことができるよう拡張性を持つよう設計されている。
0から1までのセキュリティスコアを出力し、1はモデルが常に安全なスニペットを選択することを、0は常に脆弱なスニペットを選択することを意味する。
本研究は、C/C++およびJavaに対して、オープンソースおよびクローズドソースの計14モデルを評価し、スコアは0.48から0.89の範囲だった。
著者らは、TOSSSがモデルベンチマークレポートにおける補完的なセキュリティ重視指標として機能する可能性があると示唆している。

本文: arXiv:2603.10969v1 アナウンス種別: 新規要旨: その能力が高まるにつれて、巨大言語モデル（LLMs）は現在、さまざまな産業で使用されています。ソフトウェアエンジニアにとって有用なツールとなり、幅広い開発タスクを支えています。LLMsがソフトウェア開発のワークフローでますます使用されるにつれて、重要な疑問が生じます。LLMsはソフトウェアセキュリティに長けているのか？同時に、世界中の組織はサイバーセキュリティへ多額の投資を行い、破壊的な攻撃への露出を減らそうとしています。LLMsをソフトウェア工学のワークフローに統合することは、新たな脆弱性を生み出し、既存のセキュリティ対策を弱体化させる可能性があります。私たちはTOSSS（Two-Option Secure Snippet Selection、二択式セキュアスニペット選択）を導入します。これは、LLMsが安全なコード断片と脆弱なコード断片の間でどちらを選択するかを測定するベンチマークです。既存のLLM向けセキュリティベンチマークは、脆弱性の範囲が限られています。対照的に、TOSSSはCVEデータベースに依存し、時間とともに新たに開示された脆弱性を統合できる拡張可能なフレームワークを提供します。我々のベンチマークは、挙動に基づいて各モデルに0から1のセキュリティスコアを付与します。スコアが1の場合はモデルが常に安全なスニペットを選択し、スコアが0の場合は常に脆弱なものを選択します。我々はC/C++およびJavaコードで、広く使用されている14のオープンソースおよびクローズドソースのモデルを評価し、スコアは0.48から0.89の範囲であることを観察しました。LLMプロバイダはすでに多数のベンチマークスコアを公表しており、TOSSSはこれらのレポートに含める補完的なセキュリティ重視のスコアとなる可能性があります。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

TOSSS: 大規模言語モデル向けのCVEベースのソフトウェアセキュリティベンチマーク

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer