CLAD：圧縮表現上で直接行う効率的なログ異常検知

arXiv cs.LG / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、完全な復元とパースを必要とせずに圧縮されたログのバイトストリーム上で直接動作する、ログ異常検知のための深層学習フレームワークCLADを提案する。
圧縮下で通常のログは規則的なバイトパターンを生成する一方、異常は体系的な多尺度の偏差をもたらすという観察に基づいている。
CLADは、拡張（dilated）畳み込みのバイトエンコーダ、ハイブリッドTransformer–mLSTMモジュール、4方向のアグリゲーション・プーリングを組み合わせた専用のアーキテクチャを用い、「不透明（opaque）」な圧縮バイトからこれらの偏差をモデル化する。
異常検知に典型的な深刻なクラス不均衡に対処するため、マスク付きの事前学習に続くフォーカル・コントラスト学習による微調整という2段階の学習アプローチを採用する。
5つのデータセットにおいて、CLADは平均F1スコア0.9909を達成し、最良のベースラインを2.72ポイント上回るとともに、ストリーミングにおける復元／パースのオーバーヘッドを排除する。

要旨: システムログの爆発的な増加により、ストリーミング圧縮が不可欠となっている一方で、既存のログ異常検知（LAD）手法は、完全な復号とパースを必要とするため、深刻な前処理オーバーヘッドが発生します。本研究では、圧縮されたバイトストリーム上でLADを直接行う最初の深層学習フレームワークであるCLADを提案します。CLADは、重要な洞察を活用することで、これらのボトルネックを回避します。すなわち、正常なログは規則的なバイトパターンへ圧縮されるのに対し、異常はそれを体系的に乱す、という点です。判読できないバイトからこれらのマルチスケールな逸脱を抽出するために、本用途に合わせて設計したアーキテクチャとして、拡張（dilated）畳み込みバイトエンコーダ、ハイブリッドTransformer--mLSTM、そして4方向のアグリゲーション・プーリングを統合したものを提案します。さらに、深刻なクラス不均衡を効果的に扱うために、マスク付き事前学習とファーカル・コントラスト付き微調整の2段階トレーニング戦略を組み合わせます。5つのデータセットで評価した結果、CLADは平均F1スコア0.9909という最先端の性能を達成し、最良のベースラインを2.72パーセンテージポイント上回りました。復号およびパースのオーバーヘッドを完全に排除しながら、精度をより高め、構造化されたストリーミング・コンプレッサに対しても汎化可能な、堅牢な解決策を提供します。