今夜の間ずっと、プロジェクト作業で左右に並べて両方を使っていました。基本的には、チャットに創作的な文章の塊を貼り付けて、論点ごとにそれを解体するよう指示し、批判が実際に筋の通ったものかどうかを見たうえで、批判を回避するための自分の解決策を取り込んだ次のファイルの反復版を提出する。次のセグメントに進み、次のファイルへ移り、繰り返す。果てしなく。
そこで分かったのは、Gemma 4 31B は重要なポイントをとても綺麗に追跡し、後続のより多くのターンにわたってもバイアスのない姿勢を維持する、ということです。GLM は基本的にすぐにイエスマン化します。「うわー!なんて天才的な解決策!本当にやり遂げた!これはめちゃくちゃ良い、omfg、生産投入レベル!ポッシュポッシュ!」みたいに。Gemma は少なくとも 3〜4 ラウンドのやり取りをこなして、それでも建設的な温度感を保ち、単に問題をすり抜けただけなら、ちゃんとした反論を提示する代わりにそうしたのだと、はっきり言ってくれます。もちろん、可能性があるほど鈍く無遠慮ではないですが、GLM と比べると、うわっ…私はやっぱりこっちを取る、って感じです。さらに、その過程でいくつか非常に効率的に見える提案もしてくれました。発想の枠を超えているわけではないです(例えば、予測可能で論理的なやり方で動的に相互作用する必要がある 4 つの「actor」があるとします。誰が「yes」で誰が「no」かをシステムが確認できる、4×4 の真偽 yes-no ゲート行列を作る代わりに、リンクされたペアが呼び出されたときに成立するべき相互作用の種類について指示が付いた 6 つのベクトルに圧縮する、ということです。これは実際には本当にシンプルで、しかも明らかな最適化なんですが、GLM はなぜかこれをまったく考えませんでした。私がそれを教えるまで、です。では、これは「愚かなポイントの証拠」だと思わないでください。これはあくまで私が実際に経験した、私個人の具体例にすぎません。
Gemma はときどきそもそも「考える」ことすらしませんでした。まっすぐな返答を出すだけで、それでも統計的には平均的な GLM の返答より役に立っていました。
GLM は常に、さらに千〜二千トークンも考え続けます。たとえ実際の返答が 300 くらいで済む内容でも、結局言うことは「全部順調だよ、ボスめん!(all good bossmang!)」みたいなものです。
また、Gemma は会話のずっと前の段階で出てきた内容を取り出したり再現したりする面で、より自信があるようにも見えました。チャット上で、ページ丸ごとを 1 対 1 で正確に書き直したり、会話中のある一点から別の一点の文章に一部を組み込んだりする、といったことをしています。ただし、私がどの「正確な断片」を意味しているのか、詳細な説明がなくても。私は GLM が特定の部分をそれっぽくでっち上げて(ハルシネーションして)いるのを見かけました。まあ、トークンメーターがたぶんせいぜい 30k くらいを超えなかったはずなので、今日の基準でそれが本当にすごいのかどうかは分かりませんが。
平均すると、GLM は役に立たない、価値のない出力を返すことで、私のリクエストの約 60% を無駄にしていると感じました。Gemma 4 では、うまくいかずに空振りする感じはせいぜい 30% 程度でした。でも、「amazing(驚き)」といった完全に私が作った指標で測った素晴らしい返答の量は、だいたい同じくらいで、たぶん 10% 前後です。とにかく私が言いたいのは、Gemma 4 は完璧なモデルどころかまだ夢物語です。とはいえ、文字通り 30B クラスのモデルで、GLM の看板役(flagman)より明らかに役立つと感じさせるとは、正直めちゃくちゃ驚きました。
[link] [comments]




