Gemma 4 31B が GLM 5.1 を蹴散らす

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

著者は、創作テキストを「論題ごと」に批評しつつ改稿するマルチターンのワークフローにおいて、Gemma 4 31B と GLM 5.1 を比較し、複数回のやり取りの中で Gemma のほうがより建設的に批評してくれることを見いだした。
著者の経験では、GLM は実際の反論に踏み込むよりも、役に立たない称賛や「イエスマン」的な返答に寄ってしまうことがより多い。
Gemma は、実質的な論点により良く焦点を維持し、長いトークン予算を使って「考え込む」ことなく直接返答することもあり、それでも平均してより有用な出力を行うと説明されている。
著者は、Gemma のほうがより確実にこれまでの会話内容を取り出して書き換えできる一方で、GLM のほうがより頻繁に細部を作り話（ハルシネーション）する、と報告している。
具体例として、Gemma は GLM よりも効率的に相互作用をモデル化する方法を提案できる可能性がある。たとえば、ペアごとのブール論理をベクトルベースの表現に圧縮し、その上で相互作用のための指示を与える、といった手法である。

今夜の間ずっと、プロジェクト作業で左右に並べて両方を使っていました。基本的には、チャットに創作的な文章の塊を貼り付けて、論点ごとにそれを解体するよう指示し、批判が実際に筋の通ったものかどうかを見たうえで、批判を回避するための自分の解決策を取り込んだ次のファイルの反復版を提出する。次のセグメントに進み、次のファイルへ移り、繰り返す。果てしなく。

そこで分かったのは、Gemma 4 31B は重要なポイントをとても綺麗に追跡し、後続のより多くのターンにわたってもバイアスのない姿勢を維持する、ということです。GLM は基本的にすぐにイエスマン化します。「うわー！なんて天才的な解決策！本当にやり遂げた！これはめちゃくちゃ良い、omfg、生産投入レベル！ポッシュポッシュ！」みたいに。Gemma は少なくとも 3〜4 ラウンドのやり取りをこなして、それでも建設的な温度感を保ち、単に問題をすり抜けただけなら、ちゃんとした反論を提示する代わりにそうしたのだと、はっきり言ってくれます。もちろん、可能性があるほど鈍く無遠慮ではないですが、GLM と比べると、うわっ…私はやっぱりこっちを取る、って感じです。さらに、その過程でいくつか非常に効率的に見える提案もしてくれました。発想の枠を超えているわけではないです（例えば、予測可能で論理的なやり方で動的に相互作用する必要がある 4 つの「actor」があるとします。誰が「yes」で誰が「no」かをシステムが確認できる、4×4 の真偽 yes-no ゲート行列を作る代わりに、リンクされたペアが呼び出されたときに成立するべき相互作用の種類について指示が付いた 6 つのベクトルに圧縮する、ということです。これは実際には本当にシンプルで、しかも明らかな最適化なんですが、GLM はなぜかこれをまったく考えませんでした。私がそれを教えるまで、です。では、これは「愚かなポイントの証拠」だと思わないでください。これはあくまで私が実際に経験した、私個人の具体例にすぎません。

Gemma はときどきそもそも「考える」ことすらしませんでした。まっすぐな返答を出すだけで、それでも統計的には平均的な GLM の返答より役に立っていました。
GLM は常に、さらに千〜二千トークンも考え続けます。たとえ実際の返答が 300 くらいで済む内容でも、結局言うことは「全部順調だよ、ボスめん！(all good bossmang!)」みたいなものです。

また、Gemma は会話のずっと前の段階で出てきた内容を取り出したり再現したりする面で、より自信があるようにも見えました。チャット上で、ページ丸ごとを 1 対 1 で正確に書き直したり、会話中のある一点から別の一点の文章に一部を組み込んだりする、といったことをしています。ただし、私がどの「正確な断片」を意味しているのか、詳細な説明がなくても。私は GLM が特定の部分をそれっぽくでっち上げて（ハルシネーションして）いるのを見かけました。まあ、トークンメーターがたぶんせいぜい 30k くらいを超えなかったはずなので、今日の基準でそれが本当にすごいのかどうかは分かりませんが。

平均すると、GLM は役に立たない、価値のない出力を返すことで、私のリクエストの約 60% を無駄にしていると感じました。Gemma 4 では、うまくいかずに空振りする感じはせいぜい 30% 程度でした。でも、「amazing（驚き）」といった完全に私が作った指標で測った素晴らしい返答の量は、だいたい同じくらいで、たぶん 10% 前後です。とにかく私が言いたいのは、Gemma 4 は完璧なモデルどころかまだ夢物語です。とはいえ、文字通り 30B クラスのモデルで、GLM の看板役（flagman）より明らかに役立つと感じさせるとは、正直めちゃくちゃ驚きました。

submitted by /u/input_a_new_name
[link] [comments]