大規模言語モデルの重み付き階層型アンサンブルによる自動マルウェアファミリ分類

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、難読化やパッキングにより従来の教師あり機械学習がラベル付きデータや手作りの特徴量に依存しがちで、スケーラビリティに課題がある「オープンワールド条件」におけるマルウェアファミリ分類に取り組む。
事前学習済みのLLM（大規模言語モデル）を用いた重み付き階層型アンサンブルにより、学習や特徴量学習を行わずに複数モデルの意思決定レベルの出力を統合する「ゼロラベル」フレームワークを提案する。
アンサンブルは、経験的に導出したマクロF1スコアに基づいて各LLMの寄与度に重みを与え、まずは粗い悪性挙動を判定し、その後に細かなマルウェアファミリへと絞り込む階層戦略を適用する。
著者らは、階層的な集約により頑健性が向上し、単一モデルによる不安定性を低減できると主張している。また、アナリストの推論スタイルにより適合するとしている。

Abstract

マルウェアファミリーの分類は、自動化されたマルウェア解析において、難易度の高い課題であり続けています。特に、難読化、パッキング、そして急速に進化する脅威といった特徴を備えた実環境ではその傾向が顕著です。既存の機械学習および深層学習のアプローチは、一般にラベル付きデータセット、手作りの特徴量、教師あり学習、または動的解析に依存しており、そのため、オープンワールドのシナリオでのスケーラビリティや有効性が制限されます。本論文では、事前学習済みの大規模言語モデル（LLM）を用いた重み付き階層型アンサンブルに基づく、ゼロラベルのマルウェアファミリー分類フレームワークを提案します。特徴量レベルでの学習やモデルの再学習に依存するのではなく、本提案手法は、推論の強みが補完し合う複数のLLMからの決定レベルの予測を集約します。モデルの出力には、経験的に導出したmacro-F1スコアを用いて重み付けを行い、階層構造のもとで整理します。まず粗い粒度の悪性挙動を解決し、その後でより細かい粒度のマルウェアファミリーを割り当てます。この構造により頑健性が向上し、個々のモデルの不安定さが低減され、さらにアナリストの推論スタイルと整合します。