FIRST
なぜLLM-as-Judgeを使わないのか?
多くのチームは、別のLLMを使って自分のエージェントを評価することをデフォルトにしています。簡単です。ラベルも不要です。
しかし重大な欠陥があります。あなたは「LLMにLLMを判定させる」ことを信頼しているのです。両方のモデルが同じバイアスを共有している場合(そして多くの場合、似たデータで学習されているため共有します)、判定役は誤った答えを
自信満々に承認してしまいます。
Conformal prediction(共形予測)は、この問題をまるごと回避します。あなたの正解ラベル(正しいことが分かっている答え)を使い、それをもとに数学的な保証を構築します。モデルが別のモデルを判定することはありません。判定するのは数学です。
AIエージェントを信頼できるかを知る方法(シンプルな枠組み)
あなたはAIエージェントを作りました。質問に答えます。自信ありげに聞こえます。けれど、実際に信頼できるかをどうやって確かめればよいのでしょうか?
直感ではありません。雰囲気でもありません。数学的な保証です。
この記事では、Conformal Predictionという手法に基づく5ステップの枠組みを説明します。あらゆるLLMエージェントに対して、証明可能な信頼性スコアを提示します。PhD(博士号)は不要です。
中核となる問題:1つの答えは何も教えてくれない
あなたのトレーディングエージェントに、たとえば「RSIが70を超えたらどういう意味?」と聞く場面を想像してください。
エージェントは「買われ過ぎの状態です。」と言います。
それは信頼できるでしょうか?分かりません。たまたま当たっているかもしれません。いつもそう言っているだけかもしれません。たった1つの答えからは何も判断できないのです。
これが根本的な問題です。LLMは電卓ではありません。確率的です。同じ質問を10回してみると、10通りの異なる答えが返ってくる可能性があります。だから、この枠組みはその性質を利用して始まります——隠すのではなく、活かすのです。
ステップ1:自己整合性のサンプリング——1回ではなく何度も聞く
エージェントに1回だけ質問する代わりに、10回(回答が変わるように温度 > 0)聞き、どの答えが最も頻繁に出てくるかを数えます。
例:
あなたは「RSIが70を超えたらどういう意味?」と尋ねます——10回。
回答 回数 順位
買われ過ぎの状態 7 1
強気の勢い 2 2
購入シグナル 1 3
これで分かることがあります。エージェントはこの答えに対して70%の一貫性を示している、ということです。これは意味のあるシグナルです。
一貫性が示すもの:
8–10/10 同じ答え → エージェントはよく分かっている
5–7/10 同じ答え → エージェントはやや不確か
1–4/10 同じ答え → 基本的に当てずっぽう
⚙️ 技術メモ:温度は必ず0より大きく設定してください(推奨は0.7)。温度0にすると毎回同じ答えが返り、目的が完全に失われます。
⚙️ 技術メモ:温度は必ず0より大きく設定してください(推奨は0.7)。温度0にすると毎回同じ答えが返り、目的が完全に失われます。
ステップ2:非適合度スコア——順位を数値に変換する
「順位1、順位2、順位3」のような順位はラベルです。数学には実際の数値が必要です。非適合度スコアはその変換です。
ルールは死ぬほどシンプルです:
非適合度スコア = 正解の順位
正解の答えが最も頻繁に出た(順位1)→ スコア = 1(素晴らしい)
正解が2番目に頻繁(順位2)→ スコア = 2(まあまあ)
正解が順位4の奥に埋もれていた → スコア = 4(悪い)
例:
「デス・クロスとは何?」と聞きます。正解は「弱気のシグナル」です。
回答 回数 順位
強気の反転 6 1
弱気のシグナル 3 2
ニュートラル・パターン 1 3
正解は順位2に着地した → 非適合度スコア = 2
エージェントは誤った答えを正しい答えより高い順位に付けました。これは問題です。しかも、いま数値で捉えられています。
このステップで得られるもの:校正用の50問(正解が分かっている問題)に対してこれを行います。次のような50個のスコアのリストが得られます: [1, 2, 1, 4, 1, 3, 2, 1, ...]
このリストがステップ3の材料になります。
ステップ3:校正(Calibration)— 信頼性の閾値を見つける
いま、50個の数値を持っています。校正の答え:どのスコアのカットオフにすると、95%の信頼性が得られるでしょうか?
仕組み:
- 50個すべてのスコアを低い順から並べ替える
- 95パーセンタイルの値を見つける(50個中の48番目の位置)
- その値が閾値になる
たとえば48番目の値が3なら、閾値は3です。
閾値が行うこと:
エージェントが新しい質問に答えたとき、その答えのスコアを計算します。スコアが ≤ 3 なら、その答えを「予測セット(prediction set)」に含めます。スコアが > 3 なら、含めません。
回答候補 スコア 決定
「買われ過ぎ」 1 ✅ 含める
「強気の勢い」 2 ✅ 含める
「購入シグナル」 3 ✅ 含める
「ランダムな推測」 4 ❌ 除外
結果:予測セット = {買われ過ぎの状態、強気の勢い、購入シグナル}
予測セットとは何か?なぜ存在するのか?
ここが、多くの説明でスキップされる部分です。直しましょう。
予測セットは最終回答ではありません。これは、枠組みが「正解が、あなたの目標とする信頼性レベル(たとえば95%)で含まれる」ことを保証する候補回答の集合です。
なぜ1つの答えだけを出さないのでしょうか?
1つの答えには不確実性が隠れてしまうからです。予測セットはそれを見える化します。
- 小さなセット(1〜2個):エージェントは確信している。つまり、これを分かっている。
- 大きなセット(4〜5個):エージェントは不確か。慎重に。
- とても大きなセット(6個以上):エージェントは迷子です。この話題では信頼しないでください。
たとえば医師が「これは間違いなく肺炎です」と言う場合と、「肺炎かもしれないし、気管支炎かもしれないし、重い風邪かもしれない。追加の検査が必要です」と言う場合を考えてください。後者の答えのほうが率直で、より役に立ちます。
予測セット内の答えは、事前に「知られている」必要があるのか?
はい。この枠組みは、マルチチョイスまたは順位付けされた回答の設定で、エージェントを繰り返しサンプリングし、候補を頻度で順位付けすることで機能します。新しい選択肢を発明しているのではありません。エージェントが生成した答えを、その閾値でフィルタしているだけです。
ステップ4:カバレッジ保証— 本当に機能するのか?
次に、その閾値を、エージェントが校正に使っていない新しい50問でテストします。
各質問について、予測セットを作り、正解がその中に含まれているかを確認します。
例:
Q: 「MACDのクロスオーバーは何を示しますか?」
正解: 「強気の勢い」
予測セット: {強気の勢い、トレンド反転、購入シグナル}
正解は含まれている? ✅ YES
これを50問すべてのテスト問題に対して行います。50問中47問で、予測セットの中に正解が含まれていたとします。
カバレッジ = 47 / 50 = 94%
この94%は単なるテストスコアではありません。数学的な保証です。
共形予測の性質により、このカバレッジはテストセットに限らず、同じ分布から将来出てくる任意の質問に対しても成り立ちます。
そして驚くべきポイントがあります。校正の例がたった50件であっても、閾値における誤差の幅は最大で 1/(50+1) = 1.96% です。何千ものラベル付き例は不要です。50個で十分です。
カバレッジには2種類がある— 混同しないでください
人をつまずかせやすいので、明確にしておく価値のある違いがあります。
校正セットでのカバレッジは、閾値を調整する際に観測したものです。あなたはそれを使って閾値を設定しているので、一般化の本当のテストにはなっていません。
テストセットでのカバレッジは、新しく見たことのない質問に対して測定するものです。これが本当の保証です。これは、プロダクション環境であなたのエージェントを信頼できるかを判断する数値です。
必ずテストセットのカバレッジを報告してください。校正のカバレッジは単なる足場(scaffolding)に過ぎません。
ステップ5:エージェントの比較
返却形式: {"translated": "翻訳されたHTML"}比較したいすべてのエージェントに対して、まったく同じ「50問のキャリブレーション + 50問のテスト」問題を実行します。 同一のしきい値目標に設定します。 その後、次のように順位付けします:
Agent Coverage Avg Set Size Trustworthy?
Agent A 94% 1.2 ✅ はい
Agent B 91% 1.8 ✅ はい
Agent C 87% 2.4 ⚠️ 限界的
Agent D 76% 3.1 ❌ いいえ
Agent E 64% 4.2 ❌ いいえ
重要なのは次の2つの数値です:
- Coverage — エージェントの予測セットが、正解を実際に95%の確率で含んでいるか?
- Average set size — 正解だったとき、必要とする選択肢はいくつか? 小さいほど、より自信があり、より正確です。
Agent Aが勝者です。平均セットサイズがわずか1.2で、Coverageは94%に到達しており、つまりほとんどの場合で1つの正解だけを提示できています。
結論:どのエージェントを信頼するべきかを当てずっぽうで判断するのではなく、— 証明可能な保証によって—本番環境(production)に入れるべき相手が誰かを知ることができます。
適合性予測(Conformal Prediction)に基づいています — 分布に依存しない、有限サンプルの統計フレームワーク。




