普通のソフトウェアは「動く/動かない」で合否が決まりますが、LLM(大規模言語モデル)アプリは同じ入力でも答えが揺れ、品質が連続的に上下します。「だいたい良さそう」で本番に出すと、プロンプトを少し変えただけ・モデルを乗り換えただけで静かに劣化し、誰も気づかないまま使われ続けます。これを防ぐのが評価(eval)です。この記事では、初めての人でも今日から組める評価の三本柱と、それをCI(自動テスト)と本番監視につなぐ流れを、図とともに具体的に説明します。
FIG.1 評価がないと劣化は本番で初めて発覚する。評価があれば変更の直後に検知できる
01評価は「三本柱」で考える
LLMアプリの評価は、性質の違う3つを組み合わせるのが定石です。1つだけでは穴が残ります。まずは全体像を押さえましょう。
FIG.2 Golden Set(出す前の基準)+ LLM-as-a-Judge(大量採点)+ ユーザーフィードバック(本番の実態)
Golden Set



