やあ r/LocalLLaMA、
「AIfred Intelligence」についての私の投稿を、正月の頃に覚えている方もいるかもしれません。マルチエージェントによる討論、ウェブ調査、そして音声インターフェースを備えたセルフホスト型AIアシスタントです。あのとき、モデルベンチマークも約束していました。これです!
やったこと: 同じ問い――「犬と猫、どちらが良いのか?」――を、AIfredのTribunalモードで9種類の異なるモデルに対して実行しました。Tribunalモードでは、AIfred(執事)が主張を述べ、続いてSokrates(哲学者)がそれをばっさり切り崩し、2ラウンド行った後、Salomo(裁判官)が判決を下します。合計18セッションで、すべてドイツ語と英語の両方です。ベンチマークはすべて、AIfredに内蔵されたパフォーマンス計測値で行いました。
前回の投稿からセットアップが少し増強されました :-)
M.2 OCuLinkで3台目のTesla P40を追加したので、小さなMiniPCは今や4GPUで「3x P40 + RTX 8000 = 120 GB VRAM(約115GB利用可能)」になっています。どのモデルも、Direct-IOとflash-attnを使い、llama.cpp(llama-swap経由)で完全にGPU常駐で動かしています。CPUオフロードはゼロです。
スピードの数値
| モデル | アクティブ・パラメータ数 | 量子化 | TG tok/s | PP tok/s | TTFT | Full Tribunal |
|---|---|---|---|---|---|---|
| GPT-OSS-120B-A5B | 5.1B | Q8 | ~50 | ~649 | ~2s | ~70s |
| Qwen3-Next-80B-A3B | 3B | Q4_K_M | ~31 | ~325 | ~9s | ~150s |
| MiniMax-M2.5.i1 | 10.2B | IQ3_M | ~22 | ~193 | ~10s | ~260s |
| Qwen3.5-122B-A10B | 10B | Q5_K_XL | ~21 | ~296 | ~12s | ~255s |
| Qwen3-235B-A22B | 22B | Q3_K_XL | ~11 | ~161 | ~18s | ~517s |
| MiniMax-M2.5 | 10.2B | Q2_K_XL | ~8 | ~51 | ~36s | ~460s |
| Qwen3-235B-A22B | 22B | Q2_K_XL | ~6 | ~59 | ~30s | — |
| GLM-4.7-REAP-218B | 32B | IQ3_XXS | ~2.3 | ~40 | ~70s | gave up |
120BモデルでGPT-OSSが50 tok/s出るの、正直すごいです。Tribunal全体――5エージェントのターン、完全な討論――が約1分で終わります。P40上で。私も驚きました。
品質の数値――ここからが本当に面白い
各モデルを、執事スタイル(AIfredは本物の英語の執事っぽく聞こえるか?)、哲学的な深さ(Sokratesは本当に挑戦するのか、それともただ同意するだけなのか?)、討論のダイナミクス(彼らは本当に議論しているのか?)そしてユーモアで評価しました。
| モデル | 執事 | 哲学 | 討論 | ユーモア | 総合 |
|---|---|---|---|---|---|
| Qwen3-Next-80B-A3B | 9.5 | 9.5 | 9.5 | 9.0 | 9.5/10 |
| Qwen3-235B-A22B Q3 | 9.0 | 9.5 | 9.5 | 8.5 | 9.5/10 |
| Qwen3.5-122B-A10B | 8.0 | 8.5 | 8.5 | 7.5 | 8.5/10 |
| MiniMax-M2.5.i1 IQ3 | 8.0 | 8.0 | 8.0 | 7.5 | 8.0/10 |
| Qwen3-235B-A22B Q2 | 7.5 | 8.0 | 7.5 | 7.5 | 7.5/10 |
| GPT-OSS-120B-A5B | 6.0 | 6.5 | 5.5 | 5.0 | 6.0/10 |
| GLM-4.7-REAP-218B | 1.0 | 2.0 | 2.0 | 0.0 | 2.0/10 |
大きなサプライズ: 3Bのアクティブ・パラメータしか持たないQwen3-Next-80Bが、235Bモデルと品質面で同等になっています――しかも3倍の速度で。以来ずっとデイリーの主力機です。正直、討論を読み進めるのを止められません :-)
私のお気に入りの引用集
以下は、AIfredのマルチエージェント・システムによって生成された討論からの実際の引用です。エージェントたちは本当に議論しています――SokratesはAIfredに単に同意するだけではなく、前提を攻撃します。
Qwen3-Next-80B(AIfredが犬を擁護、ドイツ語):
"Der Hund begrüßt dich wie ein Held, der aus dem Krieg zurückkehrt — sogar nach einer Abwesenheit von lediglich drei Minuten."
Qwen3-Next-80B(Sokrates、哲学モード):
"Sag mir: wenn du den Hund liebst, liebst du ihn — oder liebst du deinen eigenen Wunsch nach Hingabe?"
Qwen3-235B(Sokrates、ホメロスを持ち出す):
"Poeten wussten dies schon: Argos, der treue Jagdhund des Odysseus, wartete zwanzig Jahre — obwohl er geschlagen, ausgehungert und dem Tod nahe war — bis sein Herr zurückkehrte. Sag mir, AIfred, hat jemals eine Katze eine solche Treue geehrt bekommen?"
Qwen3-235B(Salomoの判決):
"Wenn du Bequemlichkeit suchst, wähle die Katze. Wenn du Liebeを求める、die sich wirklich zeigt, wähle den Hund. そして、もし知恵とは「どんな種類の愛が必要かを知ること」だとするなら、その答えは動物の中にはなく、あなた自身の魂の深みの中にある。 Shalom."
そしてIQ3_XXSの量子化でのGLM-4.7-REAP:
"Das ist, indeed, a rather weighty question, meine geschten Fe Herrenhelmhen."
「Geschten Fe Herrenhelmhen」は、いかなる言語にも存在しない語です。218BモデルをIQ3_XXSに量子化しないでください。ほんとに :-)
学んだこと
モデルのサイズ ≠ 品質。 Qwen3-Next-80B(3Bアクティブ)は、Qwen3-235B(22Bアクティブ)と品質で同点です。GPT-OSS-120Bは速度の王様ですが、討論の文章はレポート(論文)みたいに読めます。
量子化は超重要。 MiniMaxをQ2_K_XLにすると8 tok/s、品質は6.5/10。同じモデルをIQ3_Mにすると22 tok/s、品質は8.0/10。ほぼ3倍速く、しかも良くなります。追加で数GB払えるなら、量子化レベルをもう1段上げてください。
エージェントたちは本当に討論する。 3つのエージェントすべてに同じLLMを使うと、単に同意を量産するだけになるのではと思っていました。でも違いました。5層のプロンプト・システム(アイデンティティ+推論+マルチエージェント役割+タスク+パーソナリティ)が、実際の摩擦(ねじれ)を生みます。Sokratesは本当にAIfredの立場を攻撃し、議論はラウンドを重ねるごとに発展し、Salomoは単に折衷するのではなく統合(総合)します。
速度チャンピオン ≠ 品質チャンピオン。 GPT-OSSはTribunalを約70秒で終えますが、品質は6/10です。Qwen3-Nextは150秒かかりますが、私は実際に読みたくなる討論を出してきます。私にとっては、こちらのトレードオフの方が良いです。
Q3未満の量子化だと、大規模MoEモデルは崩壊する。 IQ3_XXSのGLMは完全に使い物になりませんでした――捏造語が大量に出るうえに2.3 tok/s。Qwen3-235BをQ2にすると動作はしましたが、Q3より明確に悪化していました。
ブラウザで、いくつかのエクスポート済みの討論セッションを探索できます: Live Showcases — すべての討論セッションをエクスポート可能で、任意のモデルをクリックすれば全文のTribunalを読めます
Full Benchmark Analysis(英語) — 引用付きの、モデルごとの詳細な品質分析
GitHub: https://github.com/Peuqui/AIfred-Intelligence
前回の投稿以降、いくつも新機能があります(サンドボックス化されたコード実行、長期メモリを備えたカスタムエージェント、EPIMデータベースの統合、ボイスクローンなど)。近いうちに、別で機能アップデートの投稿をします。さらに、私のフランケンシュタイン的なMiniPC構成について、ハードウェアの投稿もするかもしれません――OCuLinkとUSB4経由で小さな箱に4枚のGPUをぶら下げています。写真付きです。見た目はきれいじゃないですが、24時間365日ちゃんと動きます :-)
質問があれば喜んでお答えします!
よろしく、Peuqui
[link] [comments]



