リーダーシップ級HPCシステムにおける非構造化ログの解析・マイニングのための命令チューニング済みLLM

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、リーダーシップ級HPCシステムから得られる、主に非構造化で多様なシステムログを解析・マイニングするための、ドメイン適応型の命令追従(instruction-following)LLMフレームワークを提案する。
  • 8BパラメータのLLaMAモデルを、HPCログテンプレートデータに対して、命令チューニング済みの例とハイブリッドなファインチューニング戦略(CoTスタイルの推論を含む)で微調整し、高い忠実度での構造抽出を実現する。
  • 本手法は、外部/クラウドサービスに依存するのではなく、プライバシーを保護しつつ、ローカルに展開可能で、高速かつ省エネルギーなログマイニングを目的としている。
  • LogHubデータセットでの実験では、LLaMA 70BやClaudeのようなはるかに大規模なモデルと同等のパース精度が示されており、強いパラメータ効率性が示唆される。
  • 実運用での検証では、4週間でFrontierスーパーコンピュータからの600M件超の本番ログを解析し、時間的ダイナミクス、ノード単位の異常、ワークロードとエラーログの相関を特定した。

概要: リーダーシップ・クラスのHPCシステムは、異種で、主として非構造化された大量のシステムログを生成します。これらのログは多様なソフトウェア、ハードウェア、実行基盤の各層から発生するため、形式が一貫せず、構造抽出やパターン発見が極めて困難になります。そのため、これらの生のテレメトリを、運用上のパターンを明らかにし、異常を診断し、信頼性が高く効率的で、かつスケーラブルなシステム解析を可能にする、実用的なインサイトへと変換するには、頑健なログ解析・マイニングが不可欠です。近年の大規模言語モデル(LLM)の進展は、リーダーシップ・クラスのHPC環境におけるログ理解を自動化するための有望な新しい方向性を示しています。
この機会を活かすために、我々は、連鎖的思考(CoT)推論を活用して、高い忠実度でHPCログを解析し構造化する、ドメイン適応された、指示追従型の、LLM駆動フレームワークを提案します。我々の手法は、ドメイン固有のログテンプレートデータと、指示に調整(instruction-tuned)された例を組み合わせることで、HPCログ解析向けに調整された8BパラメータのLLaMAモデルをファインチューニングします。さらに、汎用的なLLMをドメイン固有のログデータに適応させるハイブリッドなファインチューニング手法を開発し、プライバシーを保護しつつ、ローカルでデプロイ可能で、迅速かつエネルギー効率の高いログマイニング手法を実現します。実験はLogHubリポジトリから、多様なログデータセットに対して行います。評価により、我々の手法が、LLaMA 70BやAnthropicのClaudeのような、より大規模なモデルと同等のパース精度を達成することが確認されます。加えて、ファインチューニングしたLLMモデルの実用性を、4週間の期間にFrontierスーパーコンピュータから600 million(6億)件以上の実運用ログを解析することで検証し、時間的ダイナミクス、ノード単位の異常、ならびにワークロードエラー・ログの相関に関する重要なパターンを明らかにします。