なぜ評価が必要か
従来のソフトウェアは「動くか動かないか」のテストで十分でしたが、LLM は確率的で、回答の質が連続値で変動します。評価フレームワークなしに本番運用するのは飛行機を計器なしで飛ばすようなもの。
3 種類の評価
1. Golden Set(手動定義)
「この入力にはこの回答が理想」というペアを 50〜500 件作成。新バージョンが出るたびにこれで採点。
- 業務担当者が作成(エンジニア任せにしない)
- エッジケース、よくある間違いを含める
- 四半期ごとに更新
2. LLM-as-a-Judge
別の強い LLM(GPT-5、Claude Opus)に「この回答は良い/悪い」と採点させる。大量評価が可能。
- 採点ルブリックを明示(「正確性 0-5、明瞭さ 0-5」など)
- バイアス対策:A/B 比較で位置を入れ替える、複数モデルで投票
- 定期的に人間と一致するかを検証
3. ユーザーフィードバック
本番で 👍 / 👎、星評価、詳細コメント。LangSmith や Helicone で集計。


