広告

LLM Readiness Harness:LLM/RAGアプリケーションにおける評価、可観測性、CIゲート

arXiv cs.AI / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、「LLM Readiness Harness」を提案し、自動化されたベンチマーク、OpenTelemetryによる可観測性、最小限のAPI契約のもとでCIの品質ゲートを組み合わせることで、オフライン評価をデプロイ判断へと変換する。
  • 認可コンプライアンス、根拠の妥当性(groundedness)、検索ヒット率、コスト、p95レイテンシなどの複数の準備度(readiness)次元を、単一の指標への過度な依存を避けるためにパレートフロンティアを用い、シナリオで重み付けしたスコアに集約する。
  • このハーネスは、チケットルーティングおよびBEIRのグラウンディング課題(SciFact、FiQA)で検証され、Azureのマトリクスを網羅的にカバー(162/162の有効セル)し、データセット、シナリオ、検索深さ、シード、モデルにわたってテストを行う。
  • 結果として、準備度ランキングはタスクや制約条件によって異なることが示される(例:FiQAではSLA優先のポリシー下でk=5の場合にgpt-4.1-miniが有利になる一方、gpt-5.2はより高いレイテンシコストを伴う)。SciFactでは差は小さいものの、運用上は依然として切り分け可能である。
  • チケットルーティングのリグレッション(回帰)ゲートは、不安全なプロンプトバリアントを一貫して拒否でき、フレームワークがオフラインスコアを報告するだけでなく、リスクのあるリリースを確実にブロックできることを示す。

広告