Gemma 4 31B は 7/8 の実世界のプロダクションテストに合格 — 私が失敗するように設計したものも含む。完全なプロンプトと出力。

Reddit r/LocalLLaMA / 2026/4/15

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Redditの投稿によると、オープンウェイトのGemma 4モデル（31B Denseおよび26B A4B MoE）が、ユーザーが設計した実世界のプロダクション向けタスク8件のうち7件で「合格」したという。これにより、シンプル〜中規模の作業用途で十分に実用的かもしれないことが示唆される。
投稿者は、コピペ可能なプロンプト、長めのテストにおけるモデルの完全な出力、そして評価を他者が再現できるようにする無料のAI Studioキーが必要なデモ用のシングルファイルHTMLアプリを共有している。
結果は、2つの別の上級モデル（Gemini 3.1 ProおよびClaude Opus 4.6）によって相互に検証されており、推論は完全にローカルではなくGCP上でホストされたGenAI API経由で実行された。
投稿は、ベンチマークよりも実務での準備性を重視しており、モデルの失敗モードをあぶり出すことを意図したプロンプトが含まれていたと説明している。
背景にあるコードと手法はGitHubリポジトリで公開されており、コミュニティによる独立した再現やさらなるテストを可能にしている。

しばらくの間、ちゃんと使える無料のローカルLLMを探していました。もうすぐだと思います——品質が急速にそこまで来ています。そしてGemma 4は、簡単〜中程度のタスクのために本番投入で本気で使おうと考えた最初のオープンウェイトモデルです。

その直感を確かめるために、2つのモデル（31B Denseと26B A4B MoE）を、8つの実際のタスクで試しました——ベンチマークではなく、仕事で実際に使うであろうプロンプトです。すべて共有したので、あなた自身でも同じテストを実行できます：

- 8つのプロンプトすべて（コピペで使える形）

- 長めのテストのためのモデル出力全文

- デモアプリのソース（単一のHTMLファイル。無料のAI Studioキーが必要なだけです）

結果はGemini 3.1 ProとClaude Opus 4.6によって独立に検証されました。

*注：これらのテストは、ローカルではなくGenai API経由で実行しました（GCP上でホストされているGemma 4）。31Bは友人がローカルで動かしていて、同様の性能だと報告していますが、これらの特定のテストはクラウド実行です。 *