Ollama を介して実行している任意のモデルに対して、ローカルで自分自身の LLM を判定者として評価できるツールを紹介します。
私が取り組もうとした LLM を判定者とする際の核心的な問題点:
LLM 判定者は初期状態で信頼性が低いことで知られている――位置バイアス、冗長性バイアス、自己ファミリーバイアス(判定者が評価対象のモデルと同じファミリに属する場合、スコアが約5〜7% 上昇する)、および小規模モデルにおける寛大性のクラスタリング。ほとんどのローカルベンチマークツールは、回答の周りに judge プロンプトをラップしてスコアと呼ぶだけです。私はもっと原理的なものを求めていました。
JudgeGPT が他と違う点:
1. 行動アンカー付きの採点ルーブリック 5つの基準(正確さ、明快さ、深さ、簡潔さ、例)それぞれのスコア段階に、単なる「1=悪い、5=良い」ではなく、明示的な行動記述が用意されています。これにより、10B 未満の judge モデルにおける寛大性のクラスタリングを大幅に抑制します。
2. UI から設定可能な judge モデル + システムプロンプト あなたは 1 つの judge にロックされません。デフォルトは qwen2.5:7b(採点ベンチマークで人間との高い相関)、ただし設定ファイルをいじらずにランタイムで任意の Ollama モデルを切り替え、システムプロンプトを編集できます。judge 対 judge の不一致を研究したい場合に重要です。
3. 採点前の Chain-of-Thought 判定者はまず自由に推論し、その推論に基づく構造化された JSON スコアを出力します。推論の過程を経ずに直接スコアを強制すると、人間の一致度が低下します。推論の断片は UI に表示され、監査可能です。
4. 人間のスコアブレンディング 各回答ごとに自分の 5 スター評価を追加できます。これは結合スコアの品質成分に組み込まれるため、評価を完全に判定者に委ねるわけではありません。
5. 自家族バイアス警告 判定モデルと評価対象モデルが同じファミリに属する場合、UI が警告を表示します。ブロックはしません — それでも実行したい時もあります — ただし表示されます。
統合リーダーボードスコア: TPS × 35% + TTFT × 15% + Quality × 50%
Quality = judge のスコアと人間のスコアの平均(提供されていれば)です。重みは judge 設定パネルで設定できます。
その他の機能:
- 7 つのタブ: 実行 · 指標 · 応答 · 総合 · ライブ配信 · Playground · 履歴
- 同時実行または逐次実行(逐次は VRAM セーバーモード)
- リアルタイムの GPU テレメトリ(温度、電力、VRAM) — Metal / ROCm / CUDA を自動検出 — ベンチマーク中のライブスパークラインと結果の要約
- ワンクリック復元機能付きの SQLite ベンチマーク履歴を永続化
- ベンチマーク前にモデルを取得するダウンロードマネージャ
- Playground タブ: 任意の 2 つ OpenAI 互換エンドポイントを並べて比較(同じモデルのローカル版と API 提供版を比較するのに有用)
- Prometheus
/

