Qwen 3.6はベンチマークで勝つが、Gemma 4は現実で勝つ――7つの学び:27B/31Bビジョンモデルをローカル(vLLM / FP8)で並べて検証

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は27B/31Bのビジョンモデルで、ローカルのvLLM(FP8)環境にてQwen 3.6とGemma 4を並行テストし、実運用の挙動がベンチマーク順位と逆転することがあると報告している。
  • 「オーバーシンキング」系のケースでは、Qwen 3.6は単純なプロンプトで思考トークン消費が改善しているものの、難解なGeoGuessrやレアなミームでは長大な推論ループに陥り、最終回答を出せないこともある。一方でGemma 4は同様の課題でもより簡潔に出力することが多い。
  • バウンディングボックスやポリゴン/セグメンテーションのような、指示への追従が重要な出力では、Gemma 4が正規化座標(0〜1)などの要件とフォーマットをより安定して満たすのに対し、Qwenは0〜1000の未スケール座標を崩れた形式で出しがちだった。
  • テスト結果からは、学習データに起因する文化・地域バイアスが示唆される。Gemma 4は欧米寄りの知識(例:ヨーロッパの難しい建造物の認識)に強く、Qwen 3.6はアジア文脈で相対的に良い傾向がある。
  • 総じて、ベンチマーク最適化(いわゆる“benchmaxing”)だけでは実用性能を予測しきれないため、メッシーで最適化されていない実タスクでのストレステストが重要だというのが主な結論だ。
Qwen 3.6はベンチマークでは勝つが、Gemma 4は現実では勝つ。ローカルで27B/31BのVisionモデルを(vLLM / FP8)並べてテストして学んだ7つのこと。ベンチマーク至上主義が本物っぽい。

みなさん、

数週間前、このサブで、最近リリースされたQwen 3.6をGemma 4と比較してテストするために、あなたたちが実際に扱っている中で最も大変なVisionのユースケースを教えてもらいました。ようやく、私のカスタムGUIを使って、vLLM(FP8量子化)上でローカルにて、両モデルを並べて(side-by-sideで)その一連のテストを完走しました。

ベンチマークを見るとQwenが勝つはずですが、テストしてみると本当にその逆に見えます。ベンチマーク至上主義(Benchmaxing)のようです。下にスコアの比較を貼りました。

公式ベンチマークはほぼゲーム化されているので、実世界の、最適化されていない“ガラクタ”を突っ込みました。変なミーム、複雑なGeoGuessrのスポット、読みにくい手書きメモ、買い物リスト、バウンディングボックスの要求、そして動的なジムの動画です。

見つけた、最大の行動の違い・癖が5つあります。

- Qwen 3.6は「過考(Overthinking)」によるトークン消費を直したのか?
はい、でもいいえ。Qwen 3.5では、単純なタスクでもモデルが1万トークン分“考えすぎ”て消費していました。3.6では、単純なプロンプトに対しては思考の保持が明らかに良くなっており、より早く止まります。ですが、奇妙なGeoGuessrの場所や珍しいミームを与えると、やはりパニックになり、大規模な推論ループに入り、8,000トークン以上を消費し、最終回答を出せないことさえあります。Gemma 4は一貫してはるかに簡潔で、同じタスクでも多くの場合1,500トークン程度で済みます。

- バウンディングボックス&スケーリング:Qwenはまだ指示と戦う
バウンディングボックス用の座標抽出やポリゴンのセグメンテーションマスクを取りたい場合、Gemma 4の方がフォーマット指示にずっと従います。というのも、Qwenにこの機能についての情報は見つからなかったからです。視覚モデルは通常、0〜1000の座標グリッドで学習されています。そこで、正規化座標(0〜1)を出力するようにプロンプトすると、Gemmaは思考フェーズでスケーリングを正しく計算し、きれいなJSONを出力しました。一方でQwenはスケーリングの指示を完全に無視し、ほとんどの場合、変な形式で生の0〜1000座標をそのまま出力しました。

- 文化の分断(ミーム&GeoGuessr)
学習データには地域バイアスがあります。

  • Gemma 4 は欧州/西洋のタスクに簡単に勝ちました(たとえば、珍しいヨーロッパの建造物を認識する問題など)。
  • Qwen 3.6 はアジア文脈の方がうまく動いているようでした。「白人の食べ物」という中国のミームを正確に特定し、さらにGeoGuessrでは、思考モードを有効にしていなくても、珍しいマレーシア/インドネシアの国境の町を当てました。

- Qwen 3.6は動画トラッキングのアップグレード
両モデルに、私がデッドリフトをしている動画を与えました(vLLMの拒否を避けるために2 FPSに前処理済み)。Qwen 3.6はここで素晴らしかったです。思考予算を調整すると、運動種目を正しく特定し、レップ数を正確に数え(Gemmaは1つ見落とし)、さらにプレートの厚みを見て棒にかかる総重量を最も正確に推定しました。

- AI動画検出はまだコイン投げ
LTX 2.3で生成された動画でそれらをテストしました。どちらのモデルも、ボールの色が変わるとか、煙が発生源なしに出るといった露骨な物理の誤りはうまく掴みました。しかし、より微妙なAI動画になると、まったく一貫しません。同じプロンプトを2回実行すると、1回目は「Real」、次は「AI generated」になってしまいます。現時点では、どちらもディープフェイク検出の信頼性はありません。

- Gemmaの推論エンジン側のデフォルト視覚トークン予算を信用しないで
Gemmaを使っていて、細かい視覚の詳細(小さなOCRテキストや複雑なグラフなど)でうまくいっていない場合は、max_soft_tokensを確認してください。vLLMやLlama Cppのような推論エンジンは、これを驚くほど低い値、たとえば280にデフォルト設定していることがよくあります。多くの人はモデルが単に低性能なのだと思っていますが、実際には画像入力をかなり強力に圧縮しているだけです。この値を引き上げると(たとえば1120以上)、精度が即座に跳ね上がります。いちばん良い点は?私のテストでは、この視覚トークン予算を上限まで増やしても、目に見える遅延はほとんど増えませんでした。視覚トークンをケチらないでください!

- 動画パイプラインの摩擦:Gemmaは生の動画を食べるが、Qwenは2 FPSを要求する
自動化したパイプラインを作っているなら、この入力の癖に注意してください。Gemma 4のエンコーダは非常に寛容で、投げ込むほぼすべての動画フォーマットやフレームレートをそのまま受け付けます。ところがQwen 3.6は非常に厳格です。vLLMに渡す前に動画を2 FPSまで事前処理しないと、エラーになったり処理に失敗したりします。

リソース:
実際のレイテンシの違い、視覚トークン予算をどう調整したか、そしてライブ推論を並べて見たい場合は、uv syncなどを含むレポジトリをここに用意しました: https://github.com/lukaLLM/Gemma4_vs_Qwen3.5_3.6_Vision_Setup_Dockers 必要なら、テスト動画もあります。

また、これまでのところどのように使っているかも教えてください。

https://preview.redd.it/420ns466vqyg1.png?width=1024&format=png&auto=webp&s=7aad733c5a3002c628e1cb9fe470f64032bee0b6

submitted by /u/FantasticNature7590
[link] [comments]