自然言語からPromQLへ:クラウドネイティブな可観測性のための、動的な時間解像度を備えたカタログ駆動型フレームワーク

arXiv cs.AI / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、可観測性ユーザのクエリ作成の障壁を下げるために、自然言語の質問を実行可能なPromQLクエリへ変換するカタログ駆動型フレームワークを提案する。
  • 約2,000件のメトリクスからなる静的にキュレーションされたカタログと、ハードウェアおよびGPUベンダ固有のシグナルに対する実行時の発見機能を組み合わせ、クラウドネイティブ環境を支援する。
  • 意図を分類し、カテゴリ別にメトリクスをルーティングし、生成されたPromQLの精度を高めるための多次元セマンティックスコアリングを適用する、多段階のクエリパイプラインを備える。
  • フレームワークには動的な時間解像度が含まれ、さまざまな自然言語の時間表現を解釈して、正しいPromQLのduration構文へ対応付ける。
  • Model Context Protocol(MCP)と統合することで、プロバイダをまたいだツール拡張型LLMの相互作用を可能にし、カタログ経路を用いたAI推論ワークロード向けに本番のKubernetesクラスタへ展開された(エンドツーエンドのレイテンシは約1.1秒)。

要旨: 現代のクラウドネイティブ・プラットフォームは、Prometheusのようなシステムを通じて数千の時系列メトリクスを公開していますが、PromQLのようなドメイン固有言語で正しいクエリを組み立てることは、プラットフォームエンジニアやサイト信頼性チームにとって依然として大きな障壁です。私たちは、自然言語の質問を実行可能なPromQLクエリへと翻訳する、カタログ駆動型のフレームワークを提案します。これにより、人間の意図とオブザーバビリティデータの間のギャップを埋めます。本手法は、次の3つの貢献を導入します: (1) 約2,000メトリクスの静的にキュレーションされたベースに、GPUベンダーごとのハードウェア固有シグナルのランタイム検出を組み合わせたハイブリッド・メトリクス・カタログ、(2) 意図分類、カテゴリに応じたメトリクス・ルーティング、多次元の意味スコアリングを行うマルチステージのクエリ・パイプライン、(3) 多様な自然言語の時間表現を解釈し、それを適切なPromQLのduration構文へとマッピングする動的な時間解像度メカニズムです。私たちは、複数のプロバイダにまたがってツールを併用したLLMの対話を可能にするため、このフレームワークをModel Context Protocol (MCP) と統合します。カタログ駆動型のアプローチにより、事前計算されたカテゴリ・インデックスを通じてサブ秒のメトリクス検出を実現し、カタログ経路ではパイプライン全体が約1.1秒で完了します。このシステムは、AI推論ワークロードを管理する本番のKubernetesクラスタにデプロイされており、クラスタの健全性、GPU利用率、モデル提供(モデル・サービング)のパフォーマンスにまたがる約2,000メトリクスを対象に、自然言語によるクエリをサポートします。