Rubric × LLM-as-a-Judge でLLMアプリの回帰テストを行う

Zenn / 2026/3/31

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

RubricとLLM-as-a-Judgeの組み合わせで、LLMアプリの出力を判定基準（ルーブリック）に沿って評価し、回帰テストに使える枠組みを示している
既存のテスト観点（正解一致だけでなく品質・要件充足）をLLM評価に置き換えることで、モデル更新やプロンプト変更時の影響を検知しやすくする
判定用LLM（ジャッジ）によりスコアリング/判定を行い、テストの自動化と運用（継続的な確認）を現実的にする
回帰テストの設計において、ルーブリック定義と評価の妥当性確保が重要なポイントとして扱われている

はじめにはじめまして、ELYZAで機械学習エンジニアのインターンをしている梶本です。 ELYZAのソリューション事業では、コールセンター向け通話要約作成・メール回答草案生成など、異なるタスクの多数のLLMアプリを共通基盤システム上で開発・運用しています。共通基盤システムのコードベースには機能追加やリファクタリングが頻繁に入るため、各アプリの動作と出力品質を確認する回帰テストが欠かせません。本システムでは各アプリのAPIインターフェースは共通化されているため、end-to-endの回帰テストの実行基盤自体も共通化できており、動作することの確認までであれば簡単に実現できています。し...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →