Gemma 4 31BがFoodTruck Benchでいくつかの最先端モデルを上回る

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 報告によれば、Gemma 4 31BはFoodTruck Benchで第3位を獲得し、GLM 5やQwen 3.5 397Bなどのモデルを上回ったほか、報告された結果ではClaude Sonnetの全バリアントにも勝っていた。
  • 議論では、Gemma 4は長期にわたるタスクをよりうまく扱える可能性があり、複数日間の実行において自らの計画により良く従えるのではないか、という示唆がある。
  • 投稿では、それがベンチマークの作者によるものではない点を強調し、結果を完全な公式報告というよりも、コミュニティに結びついた興味深いシグナルとして位置づけている。
  • ベンチマークの主催者がこの結果をどのように説明するのか、特に他のモデルが実行を完了できなかった状況を踏まえると、説明への関心が述べられている。
Gemma 4 31B は FoodTruck Bench でいくつかの最前線モデルに勝利

Gemma 4 31B は FoodTruck Bench で驚異的な 3 位を獲得し、GLM 5、Qwen 3.5 397B、そして Claude Sonnets すべてに勝ちました!

彼らがこの結果をどう説明するのか楽しみです。これまでにランを完了できなかった前のモデルに基づくと、Gemma 4 は長いホライゾンのタスクをよりうまく扱い、実際に翌日のランの計画を立てる際には自分自身の助言をちゃんと聞いているように思えます。

編集: 私はベンチマークの作者ではありません。ただ好きなだけで、たいていのものとは違って楽しそうです。

submitted by /u/Nindaleth
[link] [comments]