Gemma 4 26bに、コーディング能力をテストするために単純な1ページのブロック崩しゲームを作らせてみたら、いきなり完全に「統合失調気味」になり始めた

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

この記事では、ユーザーがコーディング能力を評価するために、Gemma 4 26Bモデルにシンプルな1ページのブロック崩し（Breakout）ゲームを作らせた実験について説明している。
報告によれば、モデルの出力はすぐに錯乱気味になり、「統合失調気味」と表現されるほど、依頼されたタスクに対して首尾一貫した結果を出せなくなった。
投稿は、この特定の状況におけるモデルの実用的なコーディング性能に対する否定的な最初の印象として、その体験を位置づけている。
内容はLLaMAに焦点を当てたローカルのフォーラムで共有されており、公式なベンチマークやリリースというより、一般のユーザーがコンシューマー/ローカルモデルの挙動を検証する文脈で関連していることを示唆している。