LLM強化ログ異常検知:自動システム診断のための大規模言語モデルに関する包括的ベンチマーク

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、4つの公開データセット(HDFS、BGL、Thunderbird、Spirit)にわたって、LLMベース手法と従来手法のシステムログ異常検知を比較する包括的ベンチマークを提案する。
  • 3つの手法ファミリを評価する:古典的なログパーサ+ML分類器、微調整したトランスフォーマ(BERT/RoBERTa)、およびプロンプトベースのLLMアプローチ(GPT-3.5、GPT-4、LLaMA-3)をゼロショットと少数ショットの設定で扱う。
  • 微調整したトランスフォーマは最良の精度を示し、F1スコアはおよそ0.96〜0.99に到達する。一方、プロンプトベースのLLMは、ラベル付き学習データなしでもゼロショットで強い性能を発揮し、F1はおよそ0.82〜0.91となる。
  • 本研究には、コストと精度のトレードオフ、レイテンシ、アプローチ間で共通する失敗モードなど、実運用に関する考慮事項の分析を含める。
  • 著者らは再現性を支えるためのコードと設定を公開し、ラベル不足、レイテンシ、予算といった制約下で手法を選択するための実務者向けガイドラインを提供する。