| 私たちのベンチマークでGemma 4(31B)をテストしました。正直、これほどとは思っていませんでした。 生存率100%、5回中5回が利益、+1,144%の中央値ROI。1回あたり$0.20です。 GPT-5.2($4.43/run)、Gemini 3 Pro($2.95/run)、Sonnet 4.6($7.90/run)を上回り、さらに、私たちがテストしたあらゆる中国のオープンソースモデルを完全に粉砕しています — Qwen 3.5 397B、Qwen 3.5 9B、DeepSeek V3.2、GLM-5。どれも一貫して生き残れません。 Gemma 4に勝てる唯一のモデルは、1回あたり$36のOpus 4.6です。それは180倍高価です。 310億パラメータ。20セント。設定も、プロンプトも、モデルIDも再確認しました — リーダーボード上の他のどのモデルともすべて同一です。 同じシード、同じツール、同じシミュレーション。単に、この出来が良いだけです。 エージェント型のワークフローで試すことを強くおすすめします。これまで22モデルをテストしましたが、これまでに見た中でダントツの「コスト対パフォーマンス比」です。 チャートと日別分析付きの詳細な内訳: foodtruckbench.com/blog/gemma-4-31b FoodTruck BenchはAIビジネスシミュレーションのベンチマークです — エージェントは30日間、フードトラックを運営し、立地、メニュー、価格、スタッフ、在庫について意思決定します。リーダーボードは foodtruckbench.com [リンク] [コメント] |
Gemma 4は、Opus 4.6とGPT-5.2以外の当社のリーダーボード上のすべてのモデルを、まるで当然のように破壊してしまった。31Bパラメータ、$0.20/run
Reddit r/LocalLLaMA / 2026/4/6
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- FoodTruck Benchによると、Gemma 4(31B)は5/5回の実行すべてで100%生存を達成し、1回あたり$0.20で報告されている高い収益性を示し、報告ベースの中央値ROIは+1,144%だった。
- このベンチマークでは、Gemma 4がコスト効率(cost-to-performance)においてGPT-5.2、Gemini 3 Pro、Sonnet 4.6などの複数の主要モデルを上回り、さらにテストした複数の中国のオープンソース・モデルも上回ったと主張している。
- 報告されている範囲でGemma 4に勝った唯一のモデルはOpus 4.6だが、そのコストは1回あたり$36で(約180倍高額)、効率面での潜在的な優位性が示唆されている。
- 著者らは、モデル間で同一の設定とシミュレーション条件を使用したと述べている(同じプロンプト、ツール、シード、モデルIDの検証)。これにより、性能差がモデルによるものだと裏付ける意図がある。
- 彼らは「エージェンティックなワークフロー」にGemma 4を試すことを推奨しており、これまで22モデルをテストした後で見た中で最良のコスト対パフォーマンス比だと強調している。




