生成AIを用いた合成マルウェアサンプルの生成

arXiv cs.LG / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、サイバーセキュリティ上の重要な課題として、新種のマルウェアでは特に学習データが不足しやすく、マルウェア・データセットが不均衡になりがちな点を扱っています。
提案手法は、マルウェアのバイナリを「ニーモニック（mnemonic）オペコード列」に分解し、NLPでオペコード特徴の文脈的な意味を抽出して、生成モデルをより適切に条件付けできるようにします。
GAN、WGAN-GP、改良版ディフュージョンモデルなど複数の生成手法を比較し、最も効果が大きいのはディフュージョンに基づく合成データであると示されています。
実験では、ディフュージョン生成サンプルにより少数クラスのマルウェア分類性能が平均で最大60%改善し、全体のマルウェア分類性能は96%（8%向上）まで高まったことが報告されています。
合成データは高い忠実性と頑健性を持ち、既知のマルウェアデータ量が大幅に少ない状況でも検出率を高める用途が期待できると結論づけています。

概要: マルウェア攻撃は、サイバーセキュリティ分野において、さまざまな規模の組織に対して大きな悪影響を与えます。近年、マルウェア研究者は、マルウェアが用いる高度な難読化手法に対抗するために、機械学習手法へとますます注目しています。しかし、異なる難読化手法を用いた多様なマルウェアサンプルの収集は難しく、特に新たに開発されたマルウェアでは、完了までに数年かかることもよくあります。この問題は、機械学習モデルに関してよく知られた制約、すなわち学習データが乏しい場合に性能が低下する点によって、さらに深刻になります。本論文では、不均衡なマルウェアデータセットを補強するための合成マルウェアサンプルを生成する新しいシステムを提案します。提案手法では、マルウェアのバイナリサンプルを記憶（mnemonic）付きオペコード列へ分解し、本論文で用いる生成AI（GenAI）—生成敵対ネットワーク（GAN）、勾配ペナルティ付きワッサースタイン生成敵対ネットワーク（WGAN-GP）、および改良した拡散（Diffusion）モデル—の学習を助けるために、自然言語処理を活用して、マルウェアオペコード特徴の背後にある文脈上の意味を抽出します。実験結果は、拡散ベースの合成データで学習データを補強することにより、少数クラスの分類性能が平均で最大60%まで大幅に改善されることを示しています。この改善は最終的に、マルウェア分類全体の性能を96%にまで高め、8%の向上につながります。これらの知見は、合成データの高い品質と忠実性、その頑健性、そしてマルウェア解析における潜在的な応用可能性を示しています。具体的には、既知のマルウェアデータのサイズが大幅に小さいにもかかわらず、合成マルウェアデータは少数のマルウェアクラスの分類と検出率の改善に有効であることが示されています。