TL;DR: DeepEval pytest-native のオープンソース評価。 Braintrust CI/CD 品質ゲートを備えた全ライフサイクル評価。 Arize Phoenix ベンダー中立のセルフホスト型トレースと評価。 LangSmith が LangChain に完全対応している場合。 Comet Opik は高ボリュームのトレースを実行する予算志向のチーム向け。
Promptfoo はなくなった。今後はどうする?
3月9日、OpenAI Promptfooを買収し、8600万ドルを支払いました。Promptfooは最も広く使用されているオープンソースの LLM 評価およびレッドチーム CLI -- 10,800 GitHub のスターを獲得し、主要な提供者全体でプロンプト、モデル出力、エージェントの挙動をテストする何千ものチームに利用されていました。
この買収は、OpenAI 以外のモデルを使用している人にとって直ちに疑問を投げかけます:Promptfoo はベンダー中立のままでしょうか? チームは「はい」と答えます。インセンティブ構造はそうであるとは限らないと示唆します。
Nebula、LangGraph、CrewAI、または自分自身のフレームワークでエージェントを実行しているかどうかにかかわらず、eval ツールは譲れません。ツールを呼び出し、意思決定を行い、プロダクションシステムと相互作用するエージェントには、ユーザーの前に障害を検知する自動テストが必要です。
以下は5つの独立した代替案 -- いずれもモデル提供者の所有物ではありません。
Quick Comparison
| Feature | DeepEval | Braintrust | Arize Phoenix | LangSmith | Comet Opik |
|---|---|---|---|---|---|
| Type | OSS フレームワーク | ホステッド プラットフォーム | OSS + クラウド | クラウド + セルフホスト | OSS + クラウド |
| Agent metrics | 6 (DAG、ツール呼出) | カスタム + 8 RAG | 専任評価者 | ステップレベルのスコアリング | エージェント最適化 |
| CI/CD integration | pytest ネイティブ | GitHub Actions のゲート | API 経由 | API 経由 | API 経由 |
| Production monitoring | いいえ(評価のみ) | はい(トレース + スコアリング) | はい(OTel トレース) | はい(トレース) | はい(日量 4000万件) |
| Self-host option | OSS ローカル | エンタープライズのみ | 無料、機能ゲートなし | エンタープライズ階層 | Apache 2.0 |
| Framework support | Python-中心 | 25以上の統合 | OTel経由で15以上 | LangChain ネイティブ | LangChain、OpenAI、カスタム |
| Pricing | 無料 OSS / ユーザーあたり 19.99 ドル | 無料 100万スパン / 月額 249 ドル | 無料セルフホスト / 月額 50 ドル | 39 ドル/席/月 | 無料 / 19 ドル/月 |
DeepEval -- オープンソースの Pytest チーム向け最適
DeepEval は pytest 内で動作する Python ネイティブの評価フレームワークです。もしチームが既に pytest でテストを書いている場合、DeepEval はワークフローを変更することなく組み込まれます。メトリクスを定義し、テストケースを書き、既存のテストスイートとともにそれらを実行します。
このリストの中で最も深いメトリクスライブラリです。50 以上のメトリクスを含み、DAG 評価、ツール呼出の正確性、マルチステップ推論のためのエージェント特有メトリクスを 6 つ含みます。期待されるツール呼出と引数スキーマを定義すると、DeepEval はエージェントが正しい経路をたどったかを採点します。
GitHub のスターは 13,900 件で、コミュニティの勢いと活発な開発が進んでいます。
Strength: pytest 統合により Python チームの導入障壁はゼロです。評価テストはユニットテストと全く同じ書き方です。CI/CD 統合は無料――既存のパイプラインに DeepEval テストを追加するだけです。
Weakness: Python 専用。Confident AI を支払わない限り、永続的なダッシュボードはありません(ユーザーあたり月額 19.99 ドル)。評価のみ――本番の追跡やモニタリングはありません。実行時の observability には別のツールが必要です。
Best for: オープンソースの評価を自分のテストスイートと CI パイプラインに直接統合したい Python チーム。
Pricing: 無料かつオープンソース。Confident AI のダッシュボードはユーザーあたり月額 19.99 ドル。
Braintrust -- 本番ライフサイクル全体に最適
Braintrust は評価を超えて、完全なライフサイクルへ:プロンプト管理、評価スコア、CI/CD 品質ゲート、本番トレース、およびプロンプト最適化を自動化する Loop AI 機能。評価、監視、改善のすべてをカバーする1つのプラットフォームを求めるなら、これが最も包括的なオプションです。
CI/CD 品質ゲートは際立った機能です。評価の最小スコア閾値を定義すると、失敗したデプロイを Braintrust がブロックします。もはや評価を実行せずにマージして精度を下げるプロンプトを出荷することはありません。
Stripe、Notion、その他の本番重視のチームによって使用されています。25+ フレームワーク統合をサポートします。
Strength: ここにある唯一のツールで、評価、本番モニタリング、および自動プロンプト最適化を1つのプラットフォームでカバーします。GitHub Actions との品質ゲート統合は非常に有用で、評価を「手動で実行するもの」から自動化された安全網へと変えます。
Weakness: Pro プランは月額 249 ドルで、このリスト中で最も高価なオプションです。無料階層(1M ログスパン)はプロトタイピングには十分ですが、本番チームはこれを超える必要があります。セルフホスティングはエンタープライズ専用。
Best for: 評価から本番までのライフサイクル全体を単一プラットフォームで扱いたく、予算を持つチーム。
Pricing: 1M ログスパンの無料階層。Pro は月額 249 ドル。エンタープライズは要問い合わせ。
Arize Phoenix -- ベンダー Neutral なセルフホスティングに最適
Arize Phoenix は OpenTelemetry をベースに構築されており、すでにお使いの観測スタックと相性良く動作します。セルフホスト版は完全に無料で、機能ゲートなし――支払うかどうかに関係なく同等の機能を得られます。
Phoenix にはツール呼出の正確性、取得品質、応答の忠実性を評価する専任エージェント評価者が含まれます。埋め込みの可視化機能は、エージェントの挙動のクラスター化の問題や時間とともに生じるドリフトを特定するのに役立ちます。
7000万ドルのシリーズ C による支援を受け、Uber や Booking.com が使用しています。
Strength: 最も真にベンダー中立の選択肢。OTel-native によりあなたのトレースはポータブルです。Arize のエコシステムにロックされていません。セルフホストは一級品で、エンタープライズのアップセルではありません。データの所在やコンプライアンスが重要な場合、これが最も安全な選択です。
Weakness: eval 機能は DeepEval のメトリクスライブラリほど専門化されていません。Phoenix は元々観測ツールとして始まり、その後評価機能を追加したため、評価専用機能(カスタム指標、アサーションフレームワーク)は専用評価ツールほど成熟していません。
Best for: セルフホスト、ベンダーニュートラルなトレースと評価が必要なチーム――特に既存の OpenTelemetry 環境やコンプライアンス要件がある場合。
Pricing: 無料セルフホスト(機能ゲートなし)。Arize クラウドは月額 50 ドルから。
LangSmith -- LangChain チーム向けに最適
LangSmith は LangChain チームが作った eval と観測プラットフォームです。LangGraph でエージェントを作っている場合、LangSmith は最も深く統合され、マルチターン評価、グラフ内の各ノードのステップレベルの採点、400日間のトレース保持を提供します。
データセット管理と注釈機能は強力です。生産トレースから評価データセットを構築し、人間のラベルで注釈を付け、それらに対して自動評価を実行できます。生産データと eval 品質の間のフィードバックループはよく設計されています。
LangChain の 1.25 兆ドル級の評価額に支えられ、ほとんどの LangGraph の本番展開で使用されています。
Strength: LangGraph と LangChain との統合の深さは他に類を見ません。これらのフレームワークでエージェントを構築している場合、追加の計装コードなしで、あらゆるステップ、あらゆるツール呼出、すべての意思決定点を可視化します。
Weakness: エコシステムのロックイン。LangSmith は最適――そして時には LangChain ベースのエージェントでしか動作しません。フレームワークを切り替えたり、カスタムエージェントアーキテクチャを使用すると、深い統合は浅くなります。39/席/月 の料金は大規模チームでは負担になります。
Best for: LangGraph または LangChain で既に開発を進めており、評価と観測の統合を可能な限り緊密にしたいチーム。
Pricing: 開発者プランは無料。Plus は 39/席/月。エンタープライズ料金は要問い合わせ。
Comet Opik -- 予算とボリューム重視に最適
Comet Opik は、価格と規模の2点で自らを位置づける最新勢力です。有料層は月額 19 ドル(寛大な無料プランあり)。日量 4,000万件のトレースを処理できるため、高スループットの評価パイプラインを運用する場合や大規模にエージェントを監視する場合に有利です。
目玉機能はAgent Optimizerで、6つの異なる最適化アルゴリズムを使用して、評価結果に基づき自動的にエージェントのプロンプトと設定を改善します。評価指標によって推進される自動プロンプト調整とみなしてください。
Apache 2.0ライセンスの下で、制限なしにセルフホストできます。
強み: このリストで最も費用対能力比が高い。Agent Optimizerは評価結果を自動的に実用的な改善へと変換し、「このプロンプトの評価が低い」から「こちらがより良いプロンプトです」へという循環を閉じます。Apache 2.0のライセンスは完全なセルフホスティングの柔軟性を提供します。
弱点: 他のプラットフォームと比べて新しく、エンタープライズの導入実績が少なく、コミュニティも小さいです。ケーススタディや本番環境でのリファレンスが限られます。Agent Optimizerは有望ですがまだ初期段階で、結果は利用ケースによって異なります。
最適な用途: 予算を抑えつつ、本番品質のトレーシングとスケールでの評価が必要なチーム、または寛容なライセンスでセルフホスト型評価を望むチーム。
Pricing: 無料プランあり。月額19ドルからの有料プラン。
選び方
判断は次の3つの質問に依存します。
評価のみが必要ですか、それとも評価+本番監視が必要ですか? 評価のみであればDeepEvalが最も軽量な選択肢です。両方が必要なら、BraintrustまたはArize Phoenixがフルスタックをカバーします。
セルフホスティングは必須ですか? Arize Phoenix(無料、機能ゲートなし)またはComet Opik(Apache 2.0)が選択肢です。それ以外はセルフホストにはクラウド優先、またはエンタープライズ専用です。
あなたのフレームワークは何ですか? LangChainチームはLangSmithから始めるべきです。その他の人はDeepEval(評価重視)またはBraintrust(全ライフサイクル)から始めるべきです。
クイック意思決定ツリー:
- オープンソース + Python? DeepEval
- フルライフサイクル + CI/CDゲート? Braintrust
- ベンダーに依存しない + セルフホスト? Arize Phoenix
- LangChainエコシステム? LangSmith
- 予算 + ボリューム? Comet Opik
結論
Promptfooの買収は、AIスタックのあらゆる層に適用される原則を思い起こさせます。重要なインフラを単一のベンダーに依存してはなりません。今日はそれが評価ツールです。明日にはモデル提供者、ホスティングプラットフォーム、あるいはベクトルデータベースになる可能性があります。
このリストの5つのツールは、独立した企業またはオープンソースプロジェクトのいずれかです。あなたの評価インフラは、特定の買収に左右されず存続すべきです。
すでにエージェントのpytestテストを書いているなら、DeepEvalが最速の道――既存のテストスイートに評価指標を追加するのに半日程度で済みます。評価、モニタリング、CI/CD品質ゲートをカバーする完全なプラットフォームが必要なら、Braintrustが最も成熟しています。そしてセルフホスティングが不可欠なら、Arize Phoenixはすべてを無料で提供します。
1つを選んでテストを始めましょう。評価カバレッジのないエージェントは、プロダクションで壊れるのを待つエージェントです。
コードレベルでエージェントをテストする方法を深掘りしたい場合は、PytestでAIエージェントツール呼び出しをテストする方法をご覧ください。これらの評価ツールが組み合わせて使われるフレームワークについては、私たちの 2026年のトップ5 AIエージェントフレームワークをご参照ください。さらに、エージェントが実際に動作している場所の様子については、私たちの AIエージェントのトップ5コードサンドボックスをご覧ください。