[プロジェクト] JudgeGPT — 設定可能な採点ルーブリック、CoT推論、リアルタイム GPU テレメトリを備えた、オープンソースの LLM を判定者として用いるベンチマークツール

Reddit r/MachineLearning / 2026/3/14

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Ollama 経由で実行しているモデルに対してローカルで LLM を判定者として評価できるオープンソースツールで、自動評価における一般的なバイアスに対処します。
正確さ、明快さ、深さ、簡潔さ、例の 5 つの基準それぞれに、各スコア段階で明示的な行動アンカーを設けた採点ルーブリックを追加し、小規模な judge モデルにおける寛大性のクラスタリングを抑制します。
UI から judge モデルとシステムプロンプトを切り替えられる（デフォルトは qwen2.5:7b）ため、設定ファイルを触らずに judge 対 judge の不一致を検討できます。
採点前に思考過程を経て、推論に基づく構造化された JSON スコアを提示します。推論を経ずに強制的にスコアを出すと、人間の整合性が低下します。UI に推論の断片を表示して監査できます。
人間のスコアブレンディング、自己ファミリーバイアス警告、リアルタイムの GPU テレメトリ、永続的なベンチマーク履歴、OpenAI 互換エンドポイントを比較するプレイグラウンドなど、豊富な機能をサポートします。

Ollama を介して実行している任意のモデルに対して、ローカルで自分自身の LLM を判定者として評価できるツールを紹介します。

私が取り組もうとした LLM を判定者とする際の核心的な問題点:

LLM 判定者は初期状態で信頼性が低いことで知られている――位置バイアス、冗長性バイアス、自己ファミリーバイアス（判定者が評価対象のモデルと同じファミリに属する場合、スコアが約5〜7% 上昇する）、および小規模モデルにおける寛大性のクラスタリング。ほとんどのローカルベンチマークツールは、回答の周りに judge プロンプトをラップしてスコアと呼ぶだけです。私はもっと原理的なものを求めていました。

JudgeGPT が他と違う点:

1. 行動アンカー付きの採点ルーブリック 5つの基準（正確さ、明快さ、深さ、簡潔さ、例）それぞれのスコア段階に、単なる「1＝悪い、5＝良い」ではなく、明示的な行動記述が用意されています。これにより、10B 未満の judge モデルにおける寛大性のクラスタリングを大幅に抑制します。

2. UI から設定可能な judge モデル + システムプロンプト あなたは 1 つの judge にロックされません。デフォルトは qwen2.5:7b（採点ベンチマークで人間との高い相関）、ただし設定ファイルをいじらずにランタイムで任意の Ollama モデルを切り替え、システムプロンプトを編集できます。judge 対 judge の不一致を研究したい場合に重要です。

3. 採点前の Chain-of-Thought 判定者はまず自由に推論し、その推論に基づく構造化された JSON スコアを出力します。推論の過程を経ずに直接スコアを強制すると、人間の一致度が低下します。推論の断片は UI に表示され、監査可能です。

4. 人間のスコアブレンディング 各回答ごとに自分の 5 スター評価を追加できます。これは結合スコアの品質成分に組み込まれるため、評価を完全に判定者に委ねるわけではありません。

5. 自家族バイアス警告 判定モデルと評価対象モデルが同じファミリに属する場合、UI が警告を表示します。ブロックはしません — それでも実行したい時もあります — ただし表示されます。

統合リーダーボードスコア: TPS × 35% + TTFT × 15% + Quality × 50%

Quality = judge のスコアと人間のスコアの平均（提供されていれば）です。重みは judge 設定パネルで設定できます。

その他の機能:

7 つのタブ: 実行 · 指標 · 応答 · 総合 · ライブ配信 · Playground · 履歴
同時実行または逐次実行（逐次は VRAM セーバーモード）
リアルタイムの GPU テレメトリ（温度、電力、VRAM） — Metal / ROCm / CUDA を自動検出 — ベンチマーク中のライブスパークラインと結果の要約
ワンクリック復元機能付きの SQLite ベンチマーク履歴を永続化
ベンチマーク前にモデルを取得するダウンロードマネージャ
Playground タブ: 任意の 2 つ OpenAI 互換エンドポイントを並べて比較（同じモデルのローカル版と API 提供版を比較するのに有用）
Prometheus /

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/14Dailyインサイトを見る →

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

note

提言：CAFという“型”で成功の再現性を高める

日経XTECH

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

Reddit r/LocalLLaMA

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

Dev.to

[プロジェクト] JudgeGPT — 設定可能な採点ルーブリック、CoT推論、リアルタイム GPU テレメトリを備えた、オープンソースの LLM を判定者として用いるベンチマークツール

要点

💡 この記事が使われたインサイト

関連記事

【AIニュース】SBGなど、米で80兆円データセンター計画【日経新聞、読売新聞】

提言：CAFという“型”で成功の再現性を高める

Llama 3.1 8B と CrewAI を用いて、私の RTX 5070 Ti 上で100% ローカルに動作する自律的なAI裁判所を構築しました。エージェント同士は文脈に基づく協力を通じて互いに議論します。

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

2026年のAIライティングツールの正直なガイド（実際に機能するものは何か）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer