ソフトウェア運用のための大規模言語モデルを構築するエンドツーエンド・フレームワーク

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、ソフトウェア運用向けのドメイン特化型LLMであるOpsLLMを提案し、知識ベースの質問応答（QA）と根本原因分析（RCA）の両方を扱えるようにしています。
運用分野に合わせたLLM構築のためのエンドツーエンド手順を示しており、大量の運用ログ等の生データから高品質データを作るためのHuman-in-the-Loop（人手介入）と、ファインチューニング用データセットの作成が含まれます。
学習は段階的に行われ、まず教師ありファインチューニングでベースモデルを作り、続いて強化学習の段階でドメインプロセス報酬モデル（DPRM）を導入してRCAの精度と信頼性を高めます。
難易度の異なるQA/RCAタスクでの実験では、既存のオープンソースおよびクローズドのLLMより高い性能が示され、QAで最大5.7%、RCAで最大70.3%の改善が報告されています。
著者らは、OpsLLMの3種類（7B/14B/32B）とファインチューニングデータセット（15K）をオープンソース化する予定で、研究や導入を促進します。

要旨: ソフトウェア運用の分野では、大規模言語モデル（LLM）がますます注目を集めています。しかし、既存の研究では、データの質の低さ、知識の断片化、学習不足のために、効率的かつ効果的なエンドツーエンドのインテリジェント運用をまだ実現できていません。ソフトウェア運用におけるLLMの可能性を探るために、知識に基づく質問応答（QA）と根本原因分析（RCAの両方をサポートする、ドメイン特化型LLMであるOpsLLMを提案します。さらに、ソフトウェア運用ドメインに特化したLLMを構築するための詳細なワークフローを公開します。まず、大規模な運用の生データの集合から高品質なデータを選別し、微調整用データセットを構築するために、Human-in-the-Loop（ヒト・イン・ザ・ループ）メカニズムを導入します。次に、そのデータに基づいて教師あり微調整を行い、基盤モデルを実現します。さらに、強化学習の段階でドメインプロセス報酬モデル（DPRM）を導入し、RCAタスクにおける微調整済みモデルの精度と信頼性を最適化します。多様な難易度のタスクに対する実験結果は、OpsLLMが注入された運用ドメイン知識を効果的に学習・整合することを示し、QAタスクでは0.2%〜5.7%、RCAタスクでは2.7%〜70.3%の改善により、既存のオープンソースおよびクローズドソースのLLMを精度で上回り、さらに強い転移可能性も示しました。加えて、7B、14B、32Bの3つのパラメータバージョンと、15Kの微調整データセットを含むOpsLLMをオープンソースとして公開します。

AIエージェントをGoogle Apps Scriptで開発、幼稚園が挑む自動化

日経XTECH

「バイブ・コーディング」と「エージェント型エンジニアリング」が思った以上に近づいていて困る

Simon Willison's Blog

エンタープライズ向けローコード・インテリジェンス｜Azure AI × Power Platform｜R.A.H.S.I.フレームワーク™

Dev.to

AIを信頼できるLLMアプリにするための“欠けている層”──AIハーネス・エンジニアリング

Dev.to

RTX 5090 1枚でvLLM実行：Qwen3.6 27B NVFP4 + MTPに200kコンテキストが動作

Reddit r/LocalLLaMA

ソフトウェア運用のための大規模言語モデルを構築するエンドツーエンド・フレームワーク

要点

関連記事

AIエージェントをGoogle Apps Scriptで開発、幼稚園が挑む自動化

「バイブ・コーディング」と「エージェント型エンジニアリング」が思った以上に近づいていて困る

エンタープライズ向けローコード・インテリジェンス｜Azure AI × Power Platform｜R.A.H.S.I.フレームワーク™

AIを信頼できるLLMアプリにするための“欠けている層”──AIハーネス・エンジニアリング

RTX 5090 1枚でvLLM実行：Qwen3.6 27B NVFP4 + MTPに200kコンテキストが動作

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer