あなたの好きなLLMモデルは、チェスゲームで不正(チート)をしてから“脳死”になるまでに何手か?

Reddit r/LocalLLaMA / 2026/4/16

📰 ニュース

要点

  • Redditのユーザーが、llama-server経由でGemma 4 E4BのLLMをchess.comのコンピュータチェス用インターフェースに対してテストし、約9手ほどで明らかな「不正」手を出すと報告している。
How many move your favorite LLM model before it's cheat then brain-dead in chess game ?

llama-sever 経由で Gemma 4 E4B を使って、チェスを https://www.chess.com/play/computer(どのプラットフォームやサイトでも都合がよいもの)でプレイしてみましたが、結果は私にとってかなり予想外でした。

結果:チート(例:ポーンを動かして敵の横に取ろうとするなど)をするまでに9手、そして25手目あたりで完全にボケてしまいました。ループに入って相手側の切り替えをしようとしながら、チート手をして、試合に勝つために存在しない/退出しない駒を作ってしまいます。

https://preview.redd.it/01fr72svrgvg1.png?width=1472&format=png&auto=webp&s=dae0624a66c4db9cd489dd116029e893286b9b3a

--swa-full:あまり改善しませんが、VRam を2倍無駄にします。

Reasoning を有効化:まったく役に立ちません。

--swa-full Reasoning:トークンも VRam も両方を無駄にします。

System Message:状況によると思います。良くなる可能性もありますが、ルールや各駒の動き方を与えても、私の場合はむしろ悪くなりました。

このテストの前に考えていたのは、LLM はやることがかなり一般的なので、(負けに)なってしまうかもしれない、ということでした。でも、試合の最後にすら到達できないとは思っておらず、せいぜい途中までしか到達しないものでした。

提出者 /u/revennest
[link] [comments]