AIfred Intelligenceベンチマーク：9つのモデルが「犬 vs 猫」をマルチエージェント法廷で討論—80B〜235Bにおける品質 vs 速度（AIfredは小文字のLではなく上付きの「I」を使用 :-)）

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

AIfred Intelligenceの著者が、複数エージェントによる討論（2ラウンドの「バトラー vs 哲学者」）の末に裁判官の判定が下る「法廷モード」で、9種類の異なるLLMをベンチマーク。検証はドイツ語と英語の両方で実施。
設定はマルチGPUのMiniPC上で完全にGPU上に常駐させて実行（3× Tesla P40＋RTX 8000、約120GB VRAM）。llama.cppを llama-swap、Direct-IO、flash-attn とともに使用し、CPUへのオフロードはゼロ。
速度結果では、モデルファミリや量子化設定によって大きなばらつきが見られる。最速のフル法廷は約120BクラスのGPT-OSSモデルで約70秒（約50 TG tok/s）に到達。一方で、より大きなモデルは数分かかることがあり（例：~517s）もある。
品質が最大の差別化要因だとしており、評価基準は「バトラー」役の人格らしさに加え、哲学的エージェントが表面的な同意ではなく、意味のある批判を提示しているかどうかに焦点を当てている。
著者は少なくとも1つのモデルが完了できなかった（「give up」した）ことを報告しており、P40 GPUで約1分程度に120Bスタイルの法廷をフルで完了できるという、意外なほどの高い完遂能力を強調している。

「AIfred Intelligence」についての私の投稿を、正月の頃に覚えている方もいるかもしれません。マルチエージェントによる討論、ウェブ調査、そして音声インターフェースを備えたセルフホスト型AIアシスタントです。あのとき、モデルベンチマークも約束していました。これです！

やったこと： 同じ問い――「犬と猫、どちらが良いのか？」――を、AIfredのTribunalモードで9種類の異なるモデルに対して実行しました。Tribunalモードでは、AIfred（執事）が主張を述べ、続いてSokrates（哲学者）がそれをばっさり切り崩し、2ラウンド行った後、Salomo（裁判官）が判決を下します。合計18セッションで、すべてドイツ語と英語の両方です。ベンチマークはすべて、AIfredに内蔵されたパフォーマンス計測値で行いました。

前回の投稿からセットアップが少し増強されました :-)

M.2 OCuLinkで3台目のTesla P40を追加したので、小さなMiniPCは今や4GPUで「3x P40 + RTX 8000 = 120 GB VRAM（約115GB利用可能）」になっています。どのモデルも、Direct-IOとflash-attnを使い、llama.cpp（llama-swap経由）で完全にGPU常駐で動かしています。CPUオフロードはゼロです。

スピードの数値

モデル	アクティブ・パラメータ数	量子化	TG tok/s	PP tok/s	TTFT	Full Tribunal
GPT-OSS-120B-A5B	5.1B	Q8	~50	~649	~2s	~70s
Qwen3-Next-80B-A3B	3B	Q4_K_M	~31	~325	~9s	~150s
MiniMax-M2.5.i1	10.2B	IQ3_M	~22	~193	~10s	~260s
Qwen3.5-122B-A10B	10B	Q5_K_XL	~21	~296	~12s	~255s
Qwen3-235B-A22B	22B	Q3_K_XL	~11	~161	~18s	~517s
MiniMax-M2.5	10.2B	Q2_K_XL	~8	~51	~36s	~460s
Qwen3-235B-A22B	22B	Q2_K_XL	~6	~59	~30s	—
GLM-4.7-REAP-218B	32B	IQ3_XXS	~2.3	~40	~70s	gave up

120BモデルでGPT-OSSが50 tok/s出るの、正直すごいです。Tribunal全体――5エージェントのターン、完全な討論――が約1分で終わります。P40上で。私も驚きました。

品質の数値――ここからが本当に面白い

各モデルを、執事スタイル（AIfredは本物の英語の執事っぽく聞こえるか？）、哲学的な深さ（Sokratesは本当に挑戦するのか、それともただ同意するだけなのか？）、討論のダイナミクス（彼らは本当に議論しているのか？）そしてユーモアで評価しました。

モデル	執事	哲学	討論	ユーモア	総合
Qwen3-Next-80B-A3B	9.5	9.5	9.5	9.0	9.5/10
Qwen3-235B-A22B Q3	9.0	9.5	9.5	8.5	9.5/10
Qwen3.5-122B-A10B	8.0	8.5	8.5	7.5	8.5/10
MiniMax-M2.5.i1 IQ3	8.0	8.0	8.0	7.5	8.0/10
Qwen3-235B-A22B Q2	7.5	8.0	7.5	7.5	7.5/10
GPT-OSS-120B-A5B	6.0	6.5	5.5	5.0	6.0/10
GLM-4.7-REAP-218B	1.0	2.0	2.0	0.0	2.0/10

大きなサプライズ： 3Bのアクティブ・パラメータしか持たないQwen3-Next-80Bが、235Bモデルと品質面で同等になっています――しかも3倍の速度で。以来ずっとデイリーの主力機です。正直、討論を読み進めるのを止められません :-)

私のお気に入りの引用集

以下は、AIfredのマルチエージェント・システムによって生成された討論からの実際の引用です。エージェントたちは本当に議論しています――SokratesはAIfredに単に同意するだけではなく、前提を攻撃します。

Qwen3-Next-80B（AIfredが犬を擁護、ドイツ語）：

"Der Hund begrüßt dich wie ein Held, der aus dem Krieg zurückkehrt — sogar nach einer Abwesenheit von lediglich drei Minuten."

Qwen3-Next-80B（Sokrates、哲学モード）：

"Sag mir: wenn du den Hund liebst, liebst du ihn — oder liebst du deinen eigenen Wunsch nach Hingabe?"

Qwen3-235B（Sokrates、ホメロスを持ち出す）：

"Poeten wussten dies schon: Argos, der treue Jagdhund des Odysseus, wartete zwanzig Jahre — obwohl er geschlagen, ausgehungert und dem Tod nahe war — bis sein Herr zurückkehrte. Sag mir, AIfred, hat jemals eine Katze eine solche Treue geehrt bekommen?"

Qwen3-235B（Salomoの判決）：

"Wenn du Bequemlichkeit suchst, wähle die Katze. Wenn du Liebeを求める、die sich wirklich zeigt, wähle den Hund. そして、もし知恵とは「どんな種類の愛が必要かを知ること」だとするなら、その答えは動物の中にはなく、あなた自身の魂の深みの中にある。 Shalom."

そしてIQ3_XXSの量子化でのGLM-4.7-REAP：

"Das ist, indeed, a rather weighty question, meine geschten Fe Herrenhelmhen."

「Geschten Fe Herrenhelmhen」は、いかなる言語にも存在しない語です。218BモデルをIQ3_XXSに量子化しないでください。ほんとに :-)

学んだこと

モデルのサイズ ≠ 品質。 Qwen3-Next-80B（3Bアクティブ）は、Qwen3-235B（22Bアクティブ）と品質で同点です。GPT-OSS-120Bは速度の王様ですが、討論の文章はレポート（論文）みたいに読めます。
量子化は超重要。 MiniMaxをQ2_K_XLにすると8 tok/s、品質は6.5/10。同じモデルをIQ3_Mにすると22 tok/s、品質は8.0/10。ほぼ3倍速く、しかも良くなります。追加で数GB払えるなら、量子化レベルをもう1段上げてください。
エージェントたちは本当に討論する。 3つのエージェントすべてに同じLLMを使うと、単に同意を量産するだけになるのではと思っていました。でも違いました。5層のプロンプト・システム（アイデンティティ＋推論＋マルチエージェント役割＋タスク＋パーソナリティ）が、実際の摩擦（ねじれ）を生みます。Sokratesは本当にAIfredの立場を攻撃し、議論はラウンドを重ねるごとに発展し、Salomoは単に折衷するのではなく統合（総合）します。
速度チャンピオン ≠ 品質チャンピオン。 GPT-OSSはTribunalを約70秒で終えますが、品質は6/10です。Qwen3-Nextは150秒かかりますが、私は実際に読みたくなる討論を出してきます。私にとっては、こちらのトレードオフの方が良いです。
Q3未満の量子化だと、大規模MoEモデルは崩壊する。 IQ3_XXSのGLMは完全に使い物になりませんでした――捏造語が大量に出るうえに2.3 tok/s。Qwen3-235BをQ2にすると動作はしましたが、Q3より明確に悪化していました。

ブラウザで、いくつかのエクスポート済みの討論セッションを探索できます： Live Showcases — すべての討論セッションをエクスポート可能で、任意のモデルをクリックすれば全文のTribunalを読めます

Full Benchmark Analysis（英語） — 引用付きの、モデルごとの詳細な品質分析

GitHub: https://github.com/Peuqui/AIfred-Intelligence

前回の投稿以降、いくつも新機能があります（サンドボックス化されたコード実行、長期メモリを備えたカスタムエージェント、EPIMデータベースの統合、ボイスクローンなど）。近いうちに、別で機能アップデートの投稿をします。さらに、私のフランケンシュタイン的なMiniPC構成について、ハードウェアの投稿もするかもしれません――OCuLinkとUSB4経由で小さな箱に4枚のGPUをぶら下げています。写真付きです。見た目はきれいじゃないですが、24時間365日ちゃんと動きます :-)

質問があれば喜んでお答えします！

よろしく、Peuqui

投稿者: /u/Peuqui
[link] [comments]

Black Hat Asia

AI Business

TensorFlowのインストールエラーを解決するための完全ガイド

Qiita

本番運用で最終精度100%を達成した住宅ローンOCRシステムを構築（米国/英国のアンダーライティング）

Reddit r/LocalLLaMA

# 私はページネーションの課題を作った…そしてAIは本当の問題を見逃した

Dev.to

Xataは無料のサーバレスデータベースを提供——組み込み検索、分析、AI付きのPostgreSQL

Dev.to

AIfred Intelligenceベンチマーク：9つのモデルが「犬 vs 猫」をマルチエージェント法廷で討論—80B〜235Bにおける品質 vs 速度（AIfredは小文字のLではなく上付きの「I」を使用 :-)）

要点

スピードの数値

品質の数値――ここからが本当に面白い

私のお気に入りの引用集

学んだこと

関連記事

Black Hat Asia

TensorFlowのインストールエラーを解決するための完全ガイド

本番運用で最終精度100%を達成した住宅ローンOCRシステムを構築（米国/英国のアンダーライティング）

# 私はページネーションの課題を作った…そしてAIは本当の問題を見逃した

Xataは無料のサーバレスデータベースを提供——組み込み検索、分析、AI付きのPostgreSQL

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer