Gemma 4は、Opus 4.6とGPT-5.2以外の当社のリーダーボード上のすべてのモデルを、まるで当然のように破壊してしまった。31Bパラメータ、$0.20/run

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • FoodTruck Benchによると、Gemma 4(31B)は5/5回の実行すべてで100%生存を達成し、1回あたり$0.20で報告されている高い収益性を示し、報告ベースの中央値ROIは+1,144%だった。
  • このベンチマークでは、Gemma 4がコスト効率(cost-to-performance)においてGPT-5.2、Gemini 3 Pro、Sonnet 4.6などの複数の主要モデルを上回り、さらにテストした複数の中国のオープンソース・モデルも上回ったと主張している。
  • 報告されている範囲でGemma 4に勝った唯一のモデルはOpus 4.6だが、そのコストは1回あたり$36で(約180倍高額)、効率面での潜在的な優位性が示唆されている。
  • 著者らは、モデル間で同一の設定とシミュレーション条件を使用したと述べている(同じプロンプト、ツール、シード、モデルIDの検証)。これにより、性能差がモデルによるものだと裏付ける意図がある。
  • 彼らは「エージェンティックなワークフロー」にGemma 4を試すことを推奨しており、これまで22モデルをテストした後で見た中で最良のコスト対パフォーマンス比だと強調している。
Gemma 4は、Opus 4.6とGPT-5.2を除く、私たちのリーダーボード上のあらゆるモデルを軽く壊しました。 31Bパラメータ、$0.20/run

私たちのベンチマークでGemma 4(31B)をテストしました。正直、これほどとは思っていませんでした。

生存率100%、5回中5回が利益、+1,144%の中央値ROI。1回あたり$0.20です。

GPT-5.2($4.43/run)、Gemini 3 Pro($2.95/run)、Sonnet 4.6($7.90/run)を上回り、さらに、私たちがテストしたあらゆる中国のオープンソースモデルを完全に粉砕しています — Qwen 3.5 397B、Qwen 3.5 9B、DeepSeek V3.2、GLM-5。どれも一貫して生き残れません。

Gemma 4に勝てる唯一のモデルは、1回あたり$36のOpus 4.6です。それは180倍高価です。

310億パラメータ。20セント。設定も、プロンプトも、モデルIDも再確認しました — リーダーボード上の他のどのモデルともすべて同一です。 同じシード、同じツール、同じシミュレーション。単に、この出来が良いだけです。

エージェント型のワークフローで試すことを強くおすすめします。これまで22モデルをテストしましたが、これまでに見た中でダントツの「コスト対パフォーマンス比」です。

チャートと日別分析付きの詳細な内訳: foodtruckbench.com/blog/gemma-4-31b

FoodTruck BenchはAIビジネスシミュレーションのベンチマークです — エージェントは30日間、フードトラックを運営し、立地、メニュー、価格、スタッフ、在庫について意思決定します。リーダーボードは foodtruckbench.com

submitted by /u/Disastrous_Theme5906
[リンク] [コメント]