| みなさん、 数週間前、このサブで、最近リリースされたQwen 3.6をGemma 4と比較してテストするために、あなたたちが実際に扱っている中で最も大変なVisionのユースケースを教えてもらいました。ようやく、私のカスタムGUIを使って、vLLM(FP8量子化)上でローカルにて、両モデルを並べて(side-by-sideで)その一連のテストを完走しました。 ベンチマークを見るとQwenが勝つはずですが、テストしてみると本当にその逆に見えます。ベンチマーク至上主義(Benchmaxing)のようです。下にスコアの比較を貼りました。 公式ベンチマークはほぼゲーム化されているので、実世界の、最適化されていない“ガラクタ”を突っ込みました。変なミーム、複雑なGeoGuessrのスポット、読みにくい手書きメモ、買い物リスト、バウンディングボックスの要求、そして動的なジムの動画です。 見つけた、最大の行動の違い・癖が5つあります。 - Qwen 3.6は「過考(Overthinking)」によるトークン消費を直したのか? - バウンディングボックス&スケーリング:Qwenはまだ指示と戦う - 文化の分断(ミーム&GeoGuessr)
- Qwen 3.6は動画トラッキングのアップグレード - AI動画検出はまだコイン投げ - Gemmaの推論エンジン側のデフォルト視覚トークン予算を信用しないで - 動画パイプラインの摩擦:Gemmaは生の動画を食べるが、Qwenは2 FPSを要求する リソース: また、これまでのところどのように使っているかも教えてください。 [link] [comments] |
Qwen 3.6はベンチマークで勝つが、Gemma 4は現実で勝つ――7つの学び:27B/31Bビジョンモデルをローカル(vLLM / FP8)で並べて検証
Reddit r/LocalLLaMA / 2026/5/3
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 著者は27B/31Bのビジョンモデルで、ローカルのvLLM(FP8)環境にてQwen 3.6とGemma 4を並行テストし、実運用の挙動がベンチマーク順位と逆転することがあると報告している。
- 「オーバーシンキング」系のケースでは、Qwen 3.6は単純なプロンプトで思考トークン消費が改善しているものの、難解なGeoGuessrやレアなミームでは長大な推論ループに陥り、最終回答を出せないこともある。一方でGemma 4は同様の課題でもより簡潔に出力することが多い。
- バウンディングボックスやポリゴン/セグメンテーションのような、指示への追従が重要な出力では、Gemma 4が正規化座標(0〜1)などの要件とフォーマットをより安定して満たすのに対し、Qwenは0〜1000の未スケール座標を崩れた形式で出しがちだった。
- テスト結果からは、学習データに起因する文化・地域バイアスが示唆される。Gemma 4は欧米寄りの知識(例:ヨーロッパの難しい建造物の認識)に強く、Qwen 3.6はアジア文脈で相対的に良い傾向がある。
- 総じて、ベンチマーク最適化(いわゆる“benchmaxing”)だけでは実用性能を予測しきれないため、メッシーで最適化されていない実タスクでのストレステストが重要だというのが主な結論だ。




