要旨: ソフトウェア運用の分野では、大規模言語モデル(LLM)がますます注目を集めています。しかし、既存の研究では、データの質の低さ、知識の断片化、学習不足のために、効率的かつ効果的なエンドツーエンドのインテリジェント運用をまだ実現できていません。ソフトウェア運用におけるLLMの可能性を探るために、知識に基づく質問応答(QA)と根本原因分析(RCAの両方をサポートする、ドメイン特化型LLMであるOpsLLMを提案します。さらに、ソフトウェア運用ドメインに特化したLLMを構築するための詳細なワークフローを公開します。まず、大規模な運用の生データの集合から高品質なデータを選別し、微調整用データセットを構築するために、Human-in-the-Loop(ヒト・イン・ザ・ループ)メカニズムを導入します。次に、そのデータに基づいて教師あり微調整を行い、基盤モデルを実現します。さらに、強化学習の段階でドメインプロセス報酬モデル(DPRM)を導入し、RCAタスクにおける微調整済みモデルの精度と信頼性を最適化します。多様な難易度のタスクに対する実験結果は、OpsLLMが注入された運用ドメイン知識を効果的に学習・整合することを示し、QAタスクでは0.2%〜5.7%、RCAタスクでは2.7%〜70.3%の改善により、既存のオープンソースおよびクローズドソースのLLMを精度で上回り、さらに強い転移可能性も示しました。加えて、7B、14B、32Bの3つのパラメータバージョンと、15Kの微調整データセットを含むOpsLLMをオープンソースとして公開します。
ソフトウェア運用のための大規模言語モデルを構築するエンドツーエンド・フレームワーク
arXiv cs.LG / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文では、ソフトウェア運用向けのドメイン特化型LLMであるOpsLLMを提案し、知識ベースの質問応答(QA)と根本原因分析(RCA)の両方を扱えるようにしています。
- 運用分野に合わせたLLM構築のためのエンドツーエンド手順を示しており、大量の運用ログ等の生データから高品質データを作るためのHuman-in-the-Loop(人手介入)と、ファインチューニング用データセットの作成が含まれます。
- 学習は段階的に行われ、まず教師ありファインチューニングでベースモデルを作り、続いて強化学習の段階でドメインプロセス報酬モデル(DPRM)を導入してRCAの精度と信頼性を高めます。
- 難易度の異なるQA/RCAタスクでの実験では、既存のオープンソースおよびクローズドのLLMより高い性能が示され、QAで最大5.7%、RCAで最大70.3%の改善が報告されています。
- 著者らは、OpsLLMの3種類(7B/14B/32B)とファインチューニングデータセット(15K)をオープンソース化する予定で、研究や導入を促進します。
関連記事
AIエージェントをGoogle Apps Scriptで開発、幼稚園が挑む自動化
日経XTECH
「バイブ・コーディング」と「エージェント型エンジニアリング」が思った以上に近づいていて困る
Simon Willison's Blog

エンタープライズ向けローコード・インテリジェンス|Azure AI × Power Platform|R.A.H.S.I.フレームワーク™
Dev.to

AIを信頼できるLLMアプリにするための“欠けている層”──AIハーネス・エンジニアリング
Dev.to
RTX 5090 1枚でvLLM実行:Qwen3.6 27B NVFP4 + MTPに200kコンテキストが動作
Reddit r/LocalLLaMA