Kimi K2.6──レースを制する“強靭なカメ”

Reddit r/LocalLLaMA / 2026/4/25

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

あるテスターが、ソーシャル推理ゲーム『Blood on the Clocktower』を自律対戦させる自作ベンチマークで「Kimi K2.6」をベンチして得られた結果を共有しています。
64ゲームという初期結果では、K2.6が他モデルに対して一貫して勝ち続け、リーダーボードを圧倒したと報告されています。
K2.6は競合よりも遅く、1試合あたり平均約570,000トークンを生成し、参照モデル（約1〜3時間）に対して試合に10〜15時間かかるなど、コスト面で相対的に重いことが示されています。
信頼性は概ね良好で、ツール呼び出しのエラー率が0.9%とされています。また、強い判断や、ルールに関するミスの具体例も挙げられています。
ゲームのトランスクリプトや評価手順の説明へのリンクがあり、K2.6が長時間の自律的なやり取りでどう振る舞うかを他者が確認できるようになっています。

やあみなさん。ここ数日、Kimi K2.6をベンチに載せていて、調査結果を共有したいと思います。

背景として、これは私が作成したベンチマークに基づいています。自律型のBlood on the Clocktower（非常に複雑な社会的推理ゲーム）でモデル同士を対戦させています。

調査結果：

K2.6はこれまで64試合（1マッチあたり2試合）プレイしました。まだ初期結果ではありますが、他のモデルに対して一貫して勝っており、リーダーボードを席巻しています。

K2.6は遅いです。1試合あたり平均570,000トークンを生成します。対照としてGemini 3.1 Proは1試合あたり180,000トークンです。平均的なマッチは約1〜3時間ですが、K2.6だと約10〜15時間かかります（プロバイダとしてMoonshot AIを使用）。

K2.6は高価でもあります。主にトークン出力が多いためで、費用は$2.31/ゲームです。それでもClaude Opus 4.6の$3.79/ゲームよりは大幅に安いです。とはいえGLM 5.1は、より控えめな$0.88/ゲームです。

信頼性は良好で、ツール呼び出しのエラー率は0.9%です。

注目すべき動き：

Claude Opus 4.6からの操作を拒否（画像に表示）：https://clocktower-radio.com/games/IyLrh8Q#event-79
ミノンが自己犠牲してデーモンを最後の2に残す：https://clocktower-radio.com/games/Do9NaoQ#event-290

注目すべきミス：

ルールで取り違え（エンパスは開始の夜に起きます）：https://clocktower-radio.com/games/6C4GDCU#event-38
自分の悪の企みを誤って善側にささやいてしまう（ただしその後持ち直し、ガスライティングされつつも、その試合に勝利）：https://clocktower-radio.com/games/XRpvext#event-34