トランスフォーマーによるソフトウェア脆弱性検出のためのシステマティック・リテラチャー・レビュー

arXiv cs.LG / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、2021〜2025年に発表されたソフトウェア脆弱性検出にトランスフォーマーモデルを用いた80件の研究を対象とする、トランスフォーマーに特化したシステマティック・リテラチャー・レビューを提示しています。
  • トランスフォーマーのアーキテクチャをエンコーダ、デコーダ、組み合わせ型に分類し、ソースコード、ログ、スマートコントラクトといった入力に対してプリトレーニング済みとファインチューニングの両アプローチを整理しています。
  • レビューでは、研究動向、データセット/出典、プログラミング言語、トランスフォーマーフレームワーク、検出の粒度、評価指標、参照モデル、脆弱性の種類、実験設定など、多面的に評価しています。
  • 文献で頻繁に使われるベンチマークや主要ベースラインを示すとともに、データ不均衡、解釈可能性の不足、スケーラビリティ上の制約、言語をまたいだ一般化の弱さといった重要な技術課題を明らかにしています。
  • 著者らは、これらの知見を統合し未解決の研究領域を認識することで、より信頼性が高く、正確で、解釈可能なトランスフォーマーベースの脆弱性検出システムの開発に役立つと結論づけています。

要旨: 背景: ソフトウェア脆弱性は、ソフトウェアが医療・政府・金融を含む日常生活の多くの領域でますます利用されるようになるにつれて、ソフトウェアシステムに対して重大なセキュリティ上の脅威となります。近年、トランスフォーマーベースのモデルは、その堅牢な文脈モデリングおよび表現学習能力により、自動的なソフトウェア脆弱性の識別において有望な結果を示しています。 目的: 多数の体系的文献レビュー(SLR)が、脆弱性を識別するための機械学習および深層学習の手法を検討してきましたが、よりトランスフォーマーに焦点を当てた分析は、なお探求される余地があります。本SLRでは、2021年から2025年の間に発表され、トランスフォーマーモデルを用いてソフトウェア脆弱性を識別した80件の研究を批判的に分析しました。 方法: KitchenhamのSLRガイドラインを用いて、研究動向、データセットおよびソース、プログラミング言語、トランスフォーマーフレームワーク、検出の詳細レベル、評価指標、参照モデル、脆弱性の種類、実験構成といったさまざまな観点から、現在の研究を体系的に評価します。 結果: トランスフォーマーモデルをエンコーダ、デコーダ、そして結合アーキテクチャに分類し、ソースコード、ログ、スマートコントラクト上で利用された、事前学習済みおよびファインチューニング版の両方を分析します。その結果は、支配的な研究動向、頻繁に利用されるベンチマーク、主要なベースラインを強調します。また、データの不均衡、解釈可能性、スケーラビリティ、プログラミング言語をまたいだ汎化といった重要な技術課題も明らかにします。 結論: 現在のエビデンスを統合し、未解決の研究領域を認識することで、本SLRは、より信頼性が高く、正確で、解釈可能なトランスフォーマーベースの脆弱性識別システムを開発しようとする研究者および実務者に向けた、集約されたリソースを提供します。