GLM 5.1は、私のソーシャル推論ベンチマークで最前線モデルと並び立っている

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 「Blood on the Clocktower(クロックタワーの血)」というソーシャル推理ゲームで、自律プレイを用いたコミュニティ・ベンチマークにより、GLM 5.1が他の最前線LLMと比べても非常に競争力が高いことが分かった。ただしテスターは、信頼性を高めるにはより多くの対戦データが必要だと指摘している。
  • このベンチマークでは、複雑なソーシャル推理のゲームプレイの中でLLM同士を対戦させ、例ではGLM 5.1が「悪役チーム」として振る舞う場面での性能が示されている。
  • 報告されているコスト比較では、GLM 5.1はゲームあたりの費用がClaude Opus 4.6より大幅に安い(約$0.92対$3.69)一方で、説明された実行においてツールエラー率は0%であった。
  • 全体として投稿は、ソーシャル推論スタイルのタスクにおけるGLM 5.1の強い実用的な性能シグナルを強調しているが、サンプル数が限られているため結果は予備的なものだと位置付けている。
GLM 5.1 sits alongside frontier models in my social reasoning benchmark

信頼できるデータのためにはまだ他にも一致が必要ですが、GLM 5.1 は他のフロンティアモデルとかなり競り合っているように見えます。

これは私が作ったベンチマークで、LLM同士を『Blood on the Clocktower』(複雑な推理系のソーシャルゲーム)における自律対戦ゲームでぶつけています。最後のスクリーンショットでは、GLM 5.1 が悪のチーム(赤)としてプレイしています。

比較として、
Claude Opus 4.6 は 1ゲームあたり $3.69 です。
GLM 5.1 は 1ゲームあたり $0.92 です。

ツールエラー率は 0% です。

非常に印象的です。

submitted by /u/cjami
[link] [comments]