ソフトウェア運用のための大規模言語モデルを構築するエンドツーエンド・フレームワーク

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文では、ソフトウェア運用向けのドメイン特化型LLMであるOpsLLMを提案し、知識ベースの質問応答(QA)と根本原因分析(RCA)の両方を扱えるようにしています。
  • 運用分野に合わせたLLM構築のためのエンドツーエンド手順を示しており、大量の運用ログ等の生データから高品質データを作るためのHuman-in-the-Loop(人手介入)と、ファインチューニング用データセットの作成が含まれます。
  • 学習は段階的に行われ、まず教師ありファインチューニングでベースモデルを作り、続いて強化学習の段階でドメインプロセス報酬モデル(DPRM)を導入してRCAの精度と信頼性を高めます。
  • 難易度の異なるQA/RCAタスクでの実験では、既存のオープンソースおよびクローズドのLLMより高い性能が示され、QAで最大5.7%、RCAで最大70.3%の改善が報告されています。
  • 著者らは、OpsLLMの3種類(7B/14B/32B)とファインチューニングデータセット(15K)をオープンソース化する予定で、研究や導入を促進します。

要旨: ソフトウェア運用の分野では、大規模言語モデル(LLM)がますます注目を集めています。しかし、既存の研究では、データの質の低さ、知識の断片化、学習不足のために、効率的かつ効果的なエンドツーエンドのインテリジェント運用をまだ実現できていません。ソフトウェア運用におけるLLMの可能性を探るために、知識に基づく質問応答(QA)と根本原因分析(RCAの両方をサポートする、ドメイン特化型LLMであるOpsLLMを提案します。さらに、ソフトウェア運用ドメインに特化したLLMを構築するための詳細なワークフローを公開します。まず、大規模な運用の生データの集合から高品質なデータを選別し、微調整用データセットを構築するために、Human-in-the-Loop(ヒト・イン・ザ・ループ)メカニズムを導入します。次に、そのデータに基づいて教師あり微調整を行い、基盤モデルを実現します。さらに、強化学習の段階でドメインプロセス報酬モデル(DPRM)を導入し、RCAタスクにおける微調整済みモデルの精度と信頼性を最適化します。多様な難易度のタスクに対する実験結果は、OpsLLMが注入された運用ドメイン知識を効果的に学習・整合することを示し、QAタスクでは0.2%〜5.7%、RCAタスクでは2.7%〜70.3%の改善により、既存のオープンソースおよびクローズドソースのLLMを精度で上回り、さらに強い転移可能性も示しました。加えて、7B、14B、32Bの3つのパラメータバージョンと、15Kの微調整データセットを含むOpsLLMをオープンソースとして公開します。