プロンプトを思いつきで書き換えていると、「昨日まで良かった答えが今日は崩れた」が起こります。これを防ぐ考え方がプロンプト管理——プロンプトを「テスト・観測・バージョン管理されるコード」として扱う、という発想です。本章では代表的な3ツール、Promptfoo(評価)・LangSmith(トレース)・Helicone(観測)を、何のための道具なのかが初めてでも分かるように整理します。
まず大枠をつかみましょう。LLMを業務に組み込むと、改善のたびに「本当に良くなったのか」「いくらかかっているのか」「どこで失敗したのか」を知りたくなります。この3つの問い——評価・コスト/観測・デバッグ——に答えるのが、これらのツールの役割です。
FIG.1 プロンプト改善は「評価・観測・トレース」の3つの問いを回し続ける営み
013ツールの守備範囲
名前が似ていて混同しがちですが、得意分野ははっきり分かれています。ざっくり言えば——Promptfoo=採点係、LangSmith=顕微鏡、Helicone=メーター。それぞれを見ていきます。
Promptfoo
プロンプトやモデルを並べて比較し、変更で品質が落ちていないかを自動採点する「評価」ツール。CI(自動テスト)に組み込んで回帰チェックに使う。
LangSmith
LLMの実行を1ステップずつ記録し、入力・出力・遅延・トークン数を可視化する「トレース/デバッグ」ツール。プロンプトの版管理や評価機能も持つ。
Helicone
API呼び出しの経路(プロキシ)に立ち、コスト・レイテンシ・回数を計測し、キャッシュもかける「観測」ツール。導入はURLを差し替えるだけ。
1つに全部を任せる必要はありません。多くのチームは「まず観測(Helicone系)→ 次に評価(Promptfoo)→ 必要に応じて詳細トレース(LangSmith)」と段階的に足していきます。役割が重なる部分もあるため、自社の悩みに直結する1つから始めるのが現実的です。
02Promptfoo — 変更を「テスト」する
Promptfoo(プロンプトフー)は、オープンソース(MITライセンス)のLLM評価フレームワークです。YAMLという設定ファイルに「このプロンプトに、この入力を与えたら、こういう出力であってほしい」と宣言的に書いておくと、複数のモデル(GPT・Claude・Geminiなど)を横並びで走らせ、結果を採点してくれます。コードを変えるたびに走らせれば、品質の作り込みが壊れていないかを機械的に確認できます。