LLMsはなぜ失敗するのか: 自動セキュリティパッチ生成の失敗分析と部分的成功の測定

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、LLMが生成したセキュリティパッチは展開前に厳格な検証を必要とする、という結論に達した。

要旨: 大規模言語モデル（LLMs）は自動プログラム修復（APR）に有望である一方、セキュリティ脆弱性に対する有効性はまだ十分に特徴づけられていない。本研究は、Vul4Jベンチマークの64件のJava脆弱性に対して、LLM生成のセキュリティパッチ319件を分析した。三軸評価（コンパイル、PoVテストによるセキュリティ、テストスイートによる機能性）を用いて、分析の結果、パッチのうち完全な正確性を満たすものは24.8%にすぎず、51.4%はセキュリティと機能性の両方を満たさないことがわかった。支配的な失敗モードは意味論的な誤解である：LLMsは構文的に有効なコードを生成するが、修復戦略を誤って適用する。提案されたセキュリティ修復スコア（SRS）はこのギャップを定量化する。LLMsは機能性を保持する（平均0.832）一方でセキュリティには苦戦する（平均0.251）。脆弱性タイプは難易度を強く予測し、修正率は入力検証で0%、無限ループで45%まで及ぶ。これらの知見は、LLMによるセキュリティパッチは展開前に厳格な検証を要することを示している。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

LLMsはなぜ失敗するのか: 自動セキュリティパッチ生成の失敗分析と部分的成功の測定

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer