AI Navigate

[プロジェクト] JudgeGPT — 設定可能な採点ルーブリック、CoT推論、リアルタイム GPU テレメトリを備えた、オープンソースの LLM を判定者として用いるベンチマークツール

Reddit r/MachineLearning / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Ollama 経由で実行しているモデルに対してローカルで LLM を判定者として評価できるオープンソースツールで、自動評価における一般的なバイアスに対処します。
  • 正確さ、明快さ、深さ、簡潔さ、例の 5 つの基準それぞれに、各スコア段階で明示的な行動アンカーを設けた採点ルーブリックを追加し、小規模な judge モデルにおける寛大性のクラスタリングを抑制します。
  • UI から judge モデルとシステムプロンプトを切り替えられる(デフォルトは qwen2.5:7b)ため、設定ファイルを触らずに judge 対 judge の不一致を検討できます。
  • 採点前に思考過程を経て、推論に基づく構造化された JSON スコアを提示します。推論を経ずに強制的にスコアを出すと、人間の整合性が低下します。UI に推論の断片を表示して監査できます。
  • 人間のスコアブレンディング、自己ファミリーバイアス警告、リアルタイムの GPU テレメトリ、永続的なベンチマーク履歴、OpenAI 互換エンドポイントを比較するプレイグラウンドなど、豊富な機能をサポートします。

Ollama を介して実行している任意のモデルに対して、ローカルで自分自身の LLM を判定者として評価できるツールを紹介します。

私が取り組もうとした LLM を判定者とする際の核心的な問題点:

LLM 判定者は初期状態で信頼性が低いことで知られている――位置バイアス、冗長性バイアス、自己ファミリーバイアス(判定者が評価対象のモデルと同じファミリに属する場合、スコアが約5〜7% 上昇する)、および小規模モデルにおける寛大性のクラスタリング。ほとんどのローカルベンチマークツールは、回答の周りに judge プロンプトをラップしてスコアと呼ぶだけです。私はもっと原理的なものを求めていました。

JudgeGPT が他と違う点:

1. 行動アンカー付きの採点ルーブリック 5つの基準(正確さ、明快さ、深さ、簡潔さ、例)それぞれのスコア段階に、単なる「1=悪い、5=良い」ではなく、明示的な行動記述が用意されています。これにより、10B 未満の judge モデルにおける寛大性のクラスタリングを大幅に抑制します。

2. UI から設定可能な judge モデル + システムプロンプト あなたは 1 つの judge にロックされません。デフォルトは qwen2.5:7b(採点ベンチマークで人間との高い相関)、ただし設定ファイルをいじらずにランタイムで任意の Ollama モデルを切り替え、システムプロンプトを編集できます。judge 対 judge の不一致を研究したい場合に重要です。

3. 採点前の Chain-of-Thought 判定者はまず自由に推論し、その推論に基づく構造化された JSON スコアを出力します。推論の過程を経ずに直接スコアを強制すると、人間の一致度が低下します。推論の断片は UI に表示され、監査可能です。

4. 人間のスコアブレンディング 各回答ごとに自分の 5 スター評価を追加できます。これは結合スコアの品質成分に組み込まれるため、評価を完全に判定者に委ねるわけではありません。

5. 自家族バイアス警告 判定モデルと評価対象モデルが同じファミリに属する場合、UI が警告を表示します。ブロックはしません — それでも実行したい時もあります — ただし表示されます。

統合リーダーボードスコア: TPS × 35% + TTFT × 15% + Quality × 50%

Quality = judge のスコアと人間のスコアの平均(提供されていれば)です。重みは judge 設定パネルで設定できます。

その他の機能:

  • 7 つのタブ: 実行 · 指標 · 応答 · 総合 · ライブ配信 · Playground · 履歴
  • 同時実行または逐次実行(逐次は VRAM セーバーモード)
  • リアルタイムの GPU テレメトリ(温度、電力、VRAM) — Metal / ROCm / CUDA を自動検出 — ベンチマーク中のライブスパークラインと結果の要約
  • ワンクリック復元機能付きの SQLite ベンチマーク履歴を永続化
  • ベンチマーク前にモデルを取得するダウンロードマネージャ
  • Playground タブ: 任意の 2 つ OpenAI 互換エンドポイントを並べて比較(同じモデルのローカル版と API 提供版を比較するのに有用)
  • Prometheus /