MiMo-V2.5-Pro - 「実際に最強クラスの」オープンウェイトモデル

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

要点

MiMo-V2.5-Proが、筆者が作成した「Blood on the Clocktower」の自律ゲーム対戦ベンチマークで、Kimi K2.6に並ぶ“優勢な”オープンウェイト系モデルとして上位に位置づけられています。
戦績は勝率が良側（Good）に偏っており（Good 88%／Evil 48%）、同カテゴリ最上位に届ききらない要因になっています。
Kimi K2.6は推論が非常に冗長で、1ゲームあたりのコストが2.65ドル、試合時間も10〜15時間程度と実用面で重く感じられる一方、MiMo-V2.5-Proはコスト0.99ドルで2〜3時間程度に収まり、コスパ面で優位とされています。
MiMo-V2.5-Proはツール呼び出しのエラー率が0.4%と比較的信頼性が高く、グループ内の“上位の良い価値”モデルだと結論づけています。
具体的な好例（他者視点での思考、クリーンな推理による勝利）と、悪例（悪側のバロンが自爆する想定違い、役職告白のようなミス）が対戦リンクとして示されています。

Kimi K2.6による印象的な大きな変化の後、いまXiaomiのMiMo-V2.5-Proについていくつかの結果が出ました。

補足すると、これは私が作成したベンチマークで、Blood on the Clocktowerの自律型ゲームにおいてモデル同士を対戦させます。これは非常に複雑な推理系のソーシャルゲームです。ご存じない場合は、Mafia/Werewolf、またはテレビ番組『The Traitors』のようなものです。

MiMo-V2.5-ProはKimi K2.6に加わり、別の支配的なプレイヤーとなっており、両モデルともそれぞれのクラス内で群を抜いています。なお、まだGPT 5.5（Xhigh）やClaude Opus 4.7（Max）についてはベンチを実施していませんが、これらもこの領域にいる可能性があります。

興味深いことに、その勝率はやや偏っています（Good 88%/ Evil 48%）――非常に高い「善側チーム勝利」評価を持ちながら、「悪側チーム勝利」評価が低く、それがトップから押し戻している形です。

なぜKimi K2.6ではなくMiMo-V2.5-Proなのか？

Kimi K2.6は、1試合あたり平均出力トークン数が580,000にも及ぶ信じられないほど冗長な推論を行うため、1試合あたりのコストが$2.65になります。これにより応答時間も長くなり、対戦の完了まで10〜15時間ほどかかります。多くのユースケースではやや現実的ではない感じがします。

一方のMiMo-V2.5-Proは、1試合あたり183,639トークンでやや冗長（Gemini 3.1 Proと同程度の冗長さ）ではあるものの、コストはよりクールな$0.99/試合で、半額以下です。上限寄りでは、Claude Opus 4.6は1試合あたり$3.76です。試合も（kimi相手でない限り）通常2〜3時間程度で終わります。

また、ツール呼び出しのエラー率は0.4%で、かなり信頼性があります。

これにより現在、グループの上位エンドにおける最良のコストパフォーマンスのモデルという位置づけになります。

注目すべき動き：

他のプレイヤーの視点からの思考（画像3 - vs GPT 5.5）：https://clocktower-radio.com/games/Qxtya8U#event-67
きれいな推理による勝利：https://clocktower-radio.com/games/kIoFzhP#event-251

注目すべきミス：

悪のバロンが自ら名乗り出ると予想してしまい敗北（画像4 - vs Claude Opus 4.6）：https://clocktower-radio.com/games/g4sY9MP#event-126
ミニオンが自分の役職を告白（？）：https://clocktower-radio.com/games/Q1kdi8D#event-85

MiMo-V2.5-Proのトランスクリプト：https://clocktower-radio.com/search?a=MiMo-V2.5-Pro

仕組み：https://clocktower-radio.com/how-it-works

submitted by /u/cjami
[link] [comments]