広告

AIfred Intelligenceベンチマーク:9つのモデルが「犬 vs 猫」をマルチエージェント法廷で討論—80B〜235Bにおける品質 vs 速度(AIfredは小文字のLではなく上付きの「I」を使用 :-))

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • AIfred Intelligenceの著者が、複数エージェントによる討論(2ラウンドの「バトラー vs 哲学者」)の末に裁判官の判定が下る「法廷モード」で、9種類の異なるLLMをベンチマーク。検証はドイツ語と英語の両方で実施。
  • 設定はマルチGPUのMiniPC上で完全にGPU上に常駐させて実行(3× Tesla P40+RTX 8000、約120GB VRAM)。llama.cppを llama-swap、Direct-IO、flash-attn とともに使用し、CPUへのオフロードはゼロ。
  • 速度結果では、モデルファミリや量子化設定によって大きなばらつきが見られる。最速のフル法廷は約120BクラスのGPT-OSSモデルで約70秒(約50 TG tok/s)に到達。一方で、より大きなモデルは数分かかることがあり(例:~517s)もある。
  • 品質が最大の差別化要因だとしており、評価基準は「バトラー」役の人格らしさに加え、哲学的エージェントが表面的な同意ではなく、意味のある批判を提示しているかどうかに焦点を当てている。
  • 著者は少なくとも1つのモデルが完了できなかった(「give up」した)ことを報告しており、P40 GPUで約1分程度に120Bスタイルの法廷をフルで完了できるという、意外なほどの高い完遂能力を強調している。

やあ r/LocalLLaMA

「AIfred Intelligence」についての私の投稿を、正月の頃に覚えている方もいるかもしれません。マルチエージェントによる討論、ウェブ調査、そして音声インターフェースを備えたセルフホスト型AIアシスタントです。あのとき、モデルベンチマークも約束していました。これです!

やったこと: 同じ問い――「犬と猫、どちらが良いのか?」――を、AIfredのTribunalモードで9種類の異なるモデルに対して実行しました。Tribunalモードでは、AIfred(執事)が主張を述べ、続いてSokrates(哲学者)がそれをばっさり切り崩し、2ラウンド行った後、Salomo(裁判官)が判決を下します。合計18セッションで、すべてドイツ語と英語の両方です。ベンチマークはすべて、AIfredに内蔵されたパフォーマンス計測値で行いました。

前回の投稿からセットアップが少し増強されました :-)

M.2 OCuLinkで3台目のTesla P40を追加したので、小さなMiniPCは今や4GPUで「3x P40 + RTX 8000 = 120 GB VRAM(約115GB利用可能)」になっています。どのモデルも、Direct-IOとflash-attnを使い、llama.cpp(llama-swap経由)で完全にGPU常駐で動かしています。CPUオフロードはゼロです。


スピードの数値

モデル アクティブ・パラメータ数 量子化 TG tok/s PP tok/s TTFT Full Tribunal
GPT-OSS-120B-A5B 5.1B Q8 ~50 ~649 ~2s ~70s
Qwen3-Next-80B-A3B 3B Q4_K_M ~31 ~325 ~9s ~150s
MiniMax-M2.5.i1 10.2B IQ3_M ~22 ~193 ~10s ~260s
Qwen3.5-122B-A10B 10B Q5_K_XL ~21 ~296 ~12s ~255s
Qwen3-235B-A22B 22B Q3_K_XL ~11 ~161 ~18s ~517s
MiniMax-M2.5 10.2B Q2_K_XL ~8 ~51 ~36s ~460s
Qwen3-235B-A22B 22B Q2_K_XL ~6 ~59 ~30s
GLM-4.7-REAP-218B 32B IQ3_XXS ~2.3 ~40 ~70s gave up

120BモデルでGPT-OSSが50 tok/s出るの、正直すごいです。Tribunal全体――5エージェントのターン、完全な討論――が約1分で終わります。P40上で。私も驚きました。


品質の数値――ここからが本当に面白い

各モデルを、執事スタイル(AIfredは本物の英語の執事っぽく聞こえるか?)、哲学的な深さ(Sokratesは本当に挑戦するのか、それともただ同意するだけなのか?)、討論のダイナミクス(彼らは本当に議論しているのか?)そしてユーモアで評価しました。

モデル 執事 哲学 討論 ユーモア 総合
Qwen3-Next-80B-A3B 9.5 9.5 9.5 9.0 9.5/10
Qwen3-235B-A22B Q3 9.0 9.5 9.5 8.5 9.5/10
Qwen3.5-122B-A10B 8.0 8.5 8.5 7.5 8.5/10
MiniMax-M2.5.i1 IQ3 8.0 8.0 8.0 7.5 8.0/10
Qwen3-235B-A22B Q2 7.5 8.0 7.5 7.5 7.5/10
GPT-OSS-120B-A5B 6.0 6.5 5.5 5.0 6.0/10
GLM-4.7-REAP-218B 1.0 2.0 2.0 0.0 2.0/10

大きなサプライズ: 3Bのアクティブ・パラメータしか持たないQwen3-Next-80Bが、235Bモデルと品質面で同等になっています――しかも3倍の速度で。以来ずっとデイリーの主力機です。正直、討論を読み進めるのを止められません :-)


私のお気に入りの引用集

以下は、AIfredのマルチエージェント・システムによって生成された討論からの実際の引用です。エージェントたちは本当に議論しています――SokratesはAIfredに単に同意するだけではなく、前提を攻撃します。

Qwen3-Next-80B(AIfredが犬を擁護、ドイツ語):

"Der Hund begrüßt dich wie ein Held, der aus dem Krieg zurückkehrt — sogar nach einer Abwesenheit von lediglich drei Minuten."

Qwen3-Next-80B(Sokrates、哲学モード):

"Sag mir: wenn du den Hund liebst, liebst du ihn — oder liebst du deinen eigenen Wunsch nach Hingabe?"

Qwen3-235B(Sokrates、ホメロスを持ち出す):

"Poeten wussten dies schon: Argos, der treue Jagdhund des Odysseus, wartete zwanzig Jahre — obwohl er geschlagen, ausgehungert und dem Tod nahe war — bis sein Herr zurückkehrte. Sag mir, AIfred, hat jemals eine Katze eine solche Treue geehrt bekommen?"

Qwen3-235B(Salomoの判決):

"Wenn du Bequemlichkeit suchst, wähle die Katze. Wenn du Liebeを求める、die sich wirklich zeigt, wähle den Hund. そして、もし知恵とは「どんな種類の愛が必要かを知ること」だとするなら、その答えは動物の中にはなく、あなた自身の魂の深みの中にある。 Shalom."

そしてIQ3_XXSの量子化でのGLM-4.7-REAP:

"Das ist, indeed, a rather weighty question, meine geschten Fe Herrenhelmhen."

「Geschten Fe Herrenhelmhen」は、いかなる言語にも存在しない語です。218BモデルをIQ3_XXSに量子化しないでください。ほんとに :-)


学んだこと

  1. モデルのサイズ ≠ 品質。 Qwen3-Next-80B(3Bアクティブ)は、Qwen3-235B(22Bアクティブ)と品質で同点です。GPT-OSS-120Bは速度の王様ですが、討論の文章はレポート(論文)みたいに読めます。

  2. 量子化は超重要。 MiniMaxをQ2_K_XLにすると8 tok/s、品質は6.5/10。同じモデルをIQ3_Mにすると22 tok/s、品質は8.0/10。ほぼ3倍速く、しかも良くなります。追加で数GB払えるなら、量子化レベルをもう1段上げてください。

  3. エージェントたちは本当に討論する。 3つのエージェントすべてに同じLLMを使うと、単に同意を量産するだけになるのではと思っていました。でも違いました。5層のプロンプト・システム(アイデンティティ+推論+マルチエージェント役割+タスク+パーソナリティ)が、実際の摩擦(ねじれ)を生みます。Sokratesは本当にAIfredの立場を攻撃し、議論はラウンドを重ねるごとに発展し、Salomoは単に折衷するのではなく統合(総合)します。

  4. 速度チャンピオン ≠ 品質チャンピオン。 GPT-OSSはTribunalを約70秒で終えますが、品質は6/10です。Qwen3-Nextは150秒かかりますが、私は実際に読みたくなる討論を出してきます。私にとっては、こちらのトレードオフの方が良いです。

  5. Q3未満の量子化だと、大規模MoEモデルは崩壊する。 IQ3_XXSのGLMは完全に使い物になりませんでした――捏造語が大量に出るうえに2.3 tok/s。Qwen3-235BをQ2にすると動作はしましたが、Q3より明確に悪化していました。


ブラウザで、いくつかのエクスポート済みの討論セッションを探索できます: Live Showcases — すべての討論セッションをエクスポート可能で、任意のモデルをクリックすれば全文のTribunalを読めます

Full Benchmark Analysis(英語) — 引用付きの、モデルごとの詳細な品質分析

GitHub: https://github.com/Peuqui/AIfred-Intelligence

前回の投稿以降、いくつも新機能があります(サンドボックス化されたコード実行、長期メモリを備えたカスタムエージェント、EPIMデータベースの統合、ボイスクローンなど)。近いうちに、別で機能アップデートの投稿をします。さらに、私のフランケンシュタイン的なMiniPC構成について、ハードウェアの投稿もするかもしれません――OCuLinkとUSB4経由で小さな箱に4枚のGPUをぶら下げています。写真付きです。見た目はきれいじゃないですが、24時間365日ちゃんと動きます :-)

質問があれば喜んでお答えします!

よろしく、Peuqui

投稿者: /u/Peuqui
[link] [comments]

広告