| Kimi K2.6による印象的な大きな変化の後、いまXiaomiのMiMo-V2.5-Proについていくつかの結果が出ました。 補足すると、これは私が作成したベンチマークで、Blood on the Clocktowerの自律型ゲームにおいてモデル同士を対戦させます。これは非常に複雑な推理系のソーシャルゲームです。ご存じない場合は、Mafia/Werewolf、またはテレビ番組『The Traitors』のようなものです。 MiMo-V2.5-ProはKimi K2.6に加わり、別の支配的なプレイヤーとなっており、両モデルともそれぞれのクラス内で群を抜いています。なお、まだGPT 5.5(Xhigh)やClaude Opus 4.7(Max)についてはベンチを実施していませんが、これらもこの領域にいる可能性があります。 興味深いことに、その勝率はやや偏っています(Good 88%/ Evil 48%)――非常に高い「善側チーム勝利」評価を持ちながら、「悪側チーム勝利」評価が低く、それがトップから押し戻している形です。 なぜKimi K2.6ではなくMiMo-V2.5-Proなのか? Kimi K2.6は、1試合あたり平均出力トークン数が580,000にも及ぶ信じられないほど冗長な推論を行うため、1試合あたりのコストが$2.65になります。これにより応答時間も長くなり、対戦の完了まで10〜15時間ほどかかります。多くのユースケースではやや現実的ではない感じがします。 一方のMiMo-V2.5-Proは、1試合あたり183,639トークンでやや冗長(Gemini 3.1 Proと同程度の冗長さ)ではあるものの、コストはよりクールな$0.99/試合で、半額以下です。上限寄りでは、Claude Opus 4.6は1試合あたり$3.76です。試合も(kimi相手でない限り)通常2〜3時間程度で終わります。 また、ツール呼び出しのエラー率は0.4%で、かなり信頼性があります。 これにより現在、グループの上位エンドにおける最良のコストパフォーマンスのモデルという位置づけになります。 注目すべき動き:
注目すべきミス:
MiMo-V2.5-Proのトランスクリプト:https://clocktower-radio.com/search?a=MiMo-V2.5-Pro [link] [comments] |
MiMo-V2.5-Pro - 「実際に最強クラスの」オープンウェイトモデル
Reddit r/LocalLLaMA / 2026/5/1
💬 オピニオンSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- MiMo-V2.5-Proが、筆者が作成した「Blood on the Clocktower」の自律ゲーム対戦ベンチマークで、Kimi K2.6に並ぶ“優勢な”オープンウェイト系モデルとして上位に位置づけられています。
- 戦績は勝率が良側(Good)に偏っており(Good 88%/Evil 48%)、同カテゴリ最上位に届ききらない要因になっています。
- Kimi K2.6は推論が非常に冗長で、1ゲームあたりのコストが2.65ドル、試合時間も10〜15時間程度と実用面で重く感じられる一方、MiMo-V2.5-Proはコスト0.99ドルで2〜3時間程度に収まり、コスパ面で優位とされています。
- MiMo-V2.5-Proはツール呼び出しのエラー率が0.4%と比較的信頼性が高く、グループ内の“上位の良い価値”モデルだと結論づけています。
- 具体的な好例(他者視点での思考、クリーンな推理による勝利)と、悪例(悪側のバロンが自爆する想定違い、役職告白のようなミス)が対戦リンクとして示されています。




