エージェント的な用途向けにQwen3.5 27BとGemma 4 31Bを比較する

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この投稿では「エージェント的」タスク向けとして、2つのローカルLLMバリアント（Qwen3.5-27B-UD-Q5_K_XL と gemma-4-31B-it-UD-Q5_K_XL）を比較している。使用するランタイムのフラグや設定は同程度に揃えている。
両モデルとも、推論を有効化した状態で、長いコンテキスト設定、フラッシュアテンション、GPU層のオフロード、画像トークン上限に加え、画像処理のためのマルチモーダル・プロジェクタを用いてテストされている。
Qwen3.5はより多くのステップを踏み、環境変数のチェックを含む確認を行い、状況によってスクリプトのスタイルを切り替えること（PythonとBashの生成の切り替え）もあり、その結果として最終的なタスク完了の品質が向上する場合があると報告されている。
一方でGemma 4はより直接的で、関連するURLを見つけることが多いとされるが、最終目標の達成に失敗することがあり、例としてTelegramメッセージが途中で切り詰められてしまうケースが挙げられている。
著者は、これらは予備的で楽しい実験にすぎないとしており、エージェント的ワークフローにおいてどちらのモデルが優れているかを検証するために、追加テストを求めている。

比較したモデル:

両方に共通する主な特徴

--flash-attn on \

--n-gpu-layers 99 \

--no-mmap \

-c 150000 \

--temp 1 --top-p 0.9 --min-p 0.1 --top-k 20 \

--ctx-checkpoints 1 \

--jinja \

-np 1 \

--reasoning on \

--mmproj 'mmproj-BF16.gguf' \

--image-min-tokens 300 --image-max-tokens 512

これらが最良だとは限らないし、まだもっと実験が必要だと思っています（ありがとうございます u/Sadman782）。こうしたテストは楽しくて興味深いです。

Model	Observations
Qwen3.5-27B-UD-Q5_K_XL	より多くの手順、環境変数のチェック、失敗を完全に要求へ反映しきれなかった場合に修正するため、最終結果は良好です（例では、telegramメッセージは完璧）。場合によっては bash だけでなく python スクリプトを作成します
gemma-4-31B-it-UD-Q5_K_XL	より直接的（URLを見つけるのに賢い）ですが、最終目標を見落とすことがあり得ます（この例では telegram メッセージが途中で切れていました

追加のテストが必要なら教えてください。