Gemma 4 31B vs Qwen 3.5 27B:長いコンテキストのワークロードではどちらが最適?私の考え…

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンTools & Practical UsageModels & Research

要点

  • この記事では、2つのローカル向け長コンテキストLLM—Qwen 3.5 27B と Gemma 4 31B—を、著者自身の実運用ワークフローにおいて比較します。使用するコンテキスト長は非常に大きく(約50K〜100Kトークン)、その挙動を見ています。
  • 著者は、Qwen 3.5 は自分の環境では Gemma 4 より一貫して高速だと報告しています。ただし、Unsloth から更新された量子化/モデルファイルをダウンロードした後、Gemma の速度は改善したとのことです。
  • 長コンテキストでの推論や「ロア(物語・設定)理解」では、どちらのモデルも実用可能だとしつつ、Qwen のほうが文脈上の参照をより多用するため、より徹底していると述べています。一方で Gemma は、参照の重みが軽めなことがある反面、より首尾一貫(コヒーレント)だとされています。
  • 著者はテスト結果として、Gemma のほうが Qwen よりも幻覚(ハルシネーション)が少ないと主張しています。また同時に、Qwen は非常に高いトークン数(約90K付近)では、より事実面での問題を起こしうるとも指摘しています。
  • 全体としてこの記事は、ベンチマークスコアというより主観的な試験に基づく「長コンテキストのワークフローでどのモデルが最適か」という実用的な推奨として構成されています。
  • 私の環境: i7 12700K | RTX 3090 TI | 96GB RAM
  • モデル: Qwen 3.5 27B UD Q5/Q6_K_XL | Gemma 4 31B UD Q4_K_XL

要点:

現時点で24GBカード向けの最良のローカルモデルはGemma 4 31BQwen 3.5 27Bです。以上。

私はありとあらゆるものを試しました。これらは、サイズの割に本当に最先端っぽい感触があった最初の2モデルです。

これまでのほとんどのモデルは、せいぜい中程度の性能を見せる“目新しさ”止まりでした。しかし、言い換え、要約、軽いコード、RPGごっこ以外の実用ケースでは、極めて役に立たないことが多い。しかも、すべてのローカルモデルが長いコンテキストでの推論分析には弱い結果でした。

ベンチマークは何の意味もありません。私にとっては簡単な試験でした。ローカルモデルを読み込み、50Kのデータを投入して、質問に答えさせ、分析もさせる。ほとんどのモデルは何か言っているようで、結局何も言っていない。関連するコンテキストはほとんど(あるいはまったく)出てこない。設定・設定世界の“伝承”を理解していない。細部を作り話する。使い物にならない。

それがQwen 3.5 27Bでは違いました。最初にそれが出てきて、私にとって状況を変えました。以来ずっと毎日のメイン機です。

Gemma 4が出てから数日後、早速起動して大量の60Kコンテキストを流し込み、動作確認をしました。質問には答えるだけでなく、“伝承”も理解していました。そこで、仕事をこなせる2つ目のモデルをようやく手に入れたわけです。Qwenほど参照付きで細密ではありませんが、Qwenにはない“何か”がありました。そこは後で戻ります。

さて、それは置いておいて、ここまでの長いコンテキストでの推論に関してトップ2が出そろったので、対決に移りましょう。どちらが良いのか?

ここ数日、私はそれをQwenと比較してきました。以下が私の結論です:

  1. Gemma 4は現在、Qwen 3.5よりかなり遅い。これまでGemmaに70〜100Kコンテキストを入れてテストしました。昨日までは、まるでカタツムリのように進み、事実上ほぼ使い物になりませんでした。(0.6〜3 tok/secでした)ただ、出力がそれなりに良かったので、設定をいじり続ける価値はありました。昨日Unslothが新しいバージョンをアップロードしたので、モデルを再ダウンロードしました。すると少なくとも2倍の速度向上が出ています。まだ遅い速度に悩んでいるなら、同じことをやるのをおすすめします。とはいえ、Qwenはさらに高い量子化でもはるかに速いです。
  2. Gemma 4はQwen 3.5より幻覚(ハルシネーション)が少ないように見える。コンテキストから参照を使う量が少なく、しかもQwenにはない、非常に重要な細部を丸ごと見落とすことがたまにあります。とはいえ、場合によってはQwenが90Kトークン近辺で事実を間違えるのに対して、Gemmaは驚くほど筋の通った回答をしつつ、事実性はやや劣るように見えます。
  3. Qwen 3.5はGemma 4よりも多くのコンテキストを参照する。そのせいで、より丁寧に見えます。とはいえ、高いコンテキスト領域では小さな細部を幻覚する傾向がたまにあります。「少なければ多い」という言葉があります。この場合も—少なければ多い……より正確には?
  4. Qwen 3.5は長い出力で明確な勝者。Qwenはコンテンツの長大なパッセージを書けて、整合性(コヒーレンス)も維持します。すごいです。実際、1回テストして、20Kの出力を書かせました。途中で早めに止めました—10Kトークンあたりで—でも、止めなければそのまま書き続けていただろうし、しかも資料の半分程度までしか到達していなかったと思います。
  5. 参考(名誉ある一言): Gemma 4はデフォルトより長い出力もできるが、指示が必要。最初の出力よりも、より徹底した結果を返せます。別のReddit投稿者が「推論をもっと長くするように言ったら、結果が良くなった」と言っていました。私も試しました。うまくいきます。答えに満足できなかったら、「もっと長く推論して、長い出力を出して」と伝えればいい。さらに、特定のコンテキスト長に合わせるよう指示することもできます。たとえば10Kトークン。設定トークン要件まで到達できるかはまだテストしていないので、後で追試します。
  6. Gemma 4は文章の“声”(ライティングのトーン/語り口)が良い。私には、(主に)読みやすくて心地よい出力に感じられました。とはいえ、やはり一定の“雑さ”はあります。26Bほどではありませんが、Qwenよりは確実に多いです。
  7. Gemma 4は割り当て(アサインメント)に対して“伝承”をよりよく消化する……場合によって。私はまだこれを検証中ですが、最初の感触としては、Gemma 4は長いコンテキストで、より印象的でインパクトのある文脈参照を引き出すことで、より満足のいく結果を出せることがあるように思います。アイデアの掘り下げ方では、時にQwenより深く踏み込めることがあります。Qwenはより多くの参照を出しますが、それらのアイデアを必ずしも最も意味のある形で統合してくれるとは限りません。たとえば、こんな感じに思えることがあります。Qwenは参照付きのレポートを提出している。Gemmaはウェブサイトのレビューコラムを書いていて、特に記憶に残った部分を引用している。これはすべてのやり取りで一貫しているわけではありませんが、十分な頻度で観察できることが多いです。
  8. Qwenのほうが賢い。技術的な観点からの結果は、しばしばQwenのほうが良いです。どちらも長いコンテキストでは細部を落としますが、Qwenのほうがより徹底していることが多い。極めて繊細で複雑な指示も受け止めて、昼食にするかのように飲み込めます。とはいえ、Gemmaも非常に能力があります。私はまだ、その実力を学んでいる最中です。Qwenのレベルではありません……まだ……でも、そこまで遠い感じもしません。
  9. Gemma 4 ちゃんと 分かってる。これは「伝承を消化する」パートにだいぶ入りますが、このGemmaの版は、単なる講釈(煽り/達観)ではなく、むしろソース素材に書かれている独特なアイデアを理解しているように見える、という点を言いたかっただけです。だから、速度を合わせてアイデアを解体/ストレステストできる“共著者”と作業している感じがします。Qwenも同様にできますが、Gemmaは独自のアイデアをテーブルに持ってきます。

最終的な感想:

これらの特定の用途(伝承マスター、ストーリー分析)に限れば、正直どちらがより好きかは決められません。彼らにはそれぞれ違う性格があり、どちらも同じくらい役に立ちます。Qwen 3.5 27Bが最初に「本当の書き手の相棒がいる」感覚を私にくれたのに対して、Gemma 4は「第三者を会話の席に加えた。しかも会話に対して別の、ユニークな何かを持ち込める」という感覚です。

もし1つだけ選べと言われたら、私はQwenを選びます。全体的な能力がより良いと感じます。推論がより良い。長いコンテキストでの注意もより良い。

ただ、Gemma 4がなければ、とても価値があり関連性の高いコンテキストを取りこぼしてしまうでしょう。議論を思いがけない、意味のある新しい方向へ押し進めうる、その“たった一つの”ランダムだが決定的な観察。

ありがたいことに、私はただ1つ選ぶ必要はありません。

submitted by /u/GrungeWerX
[link] [comments]