MiMo-V2.5-Pro - 「実際に最強クラスの」オープンウェイトモデル

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • MiMo-V2.5-Proが、筆者が作成した「Blood on the Clocktower」の自律ゲーム対戦ベンチマークで、Kimi K2.6に並ぶ“優勢な”オープンウェイト系モデルとして上位に位置づけられています。
  • 戦績は勝率が良側(Good)に偏っており(Good 88%/Evil 48%)、同カテゴリ最上位に届ききらない要因になっています。
  • Kimi K2.6は推論が非常に冗長で、1ゲームあたりのコストが2.65ドル、試合時間も10〜15時間程度と実用面で重く感じられる一方、MiMo-V2.5-Proはコスト0.99ドルで2〜3時間程度に収まり、コスパ面で優位とされています。
  • MiMo-V2.5-Proはツール呼び出しのエラー率が0.4%と比較的信頼性が高く、グループ内の“上位の良い価値”モデルだと結論づけています。
  • 具体的な好例(他者視点での思考、クリーンな推理による勝利)と、悪例(悪側のバロンが自爆する想定違い、役職告白のようなミス)が対戦リンクとして示されています。
MiMo-V2.5-Pro - 実際に最も優れたオープンウェイトモデル

Kimi K2.6による印象的な大きな変化の後、いまXiaomiのMiMo-V2.5-Proについていくつかの結果が出ました。

補足すると、これは私が作成したベンチマークで、Blood on the Clocktowerの自律型ゲームにおいてモデル同士を対戦させます。これは非常に複雑な推理系のソーシャルゲームです。ご存じない場合は、Mafia/Werewolf、またはテレビ番組『The Traitors』のようなものです。

MiMo-V2.5-ProはKimi K2.6に加わり、別の支配的なプレイヤーとなっており、両モデルともそれぞれのクラス内で群を抜いています。なお、まだGPT 5.5(Xhigh)やClaude Opus 4.7(Max)についてはベンチを実施していませんが、これらもこの領域にいる可能性があります。

興味深いことに、その勝率はやや偏っています(Good 88%/ Evil 48%)――非常に高い「善側チーム勝利」評価を持ちながら、「悪側チーム勝利」評価が低く、それがトップから押し戻している形です。

なぜKimi K2.6ではなくMiMo-V2.5-Proなのか?

Kimi K2.6は、1試合あたり平均出力トークン数が580,000にも及ぶ信じられないほど冗長な推論を行うため、1試合あたりのコストが$2.65になります。これにより応答時間も長くなり、対戦の完了まで10〜15時間ほどかかります。多くのユースケースではやや現実的ではない感じがします。

一方のMiMo-V2.5-Proは、1試合あたり183,639トークンでやや冗長(Gemini 3.1 Proと同程度の冗長さ)ではあるものの、コストはよりクールな$0.99/試合で、半額以下です。上限寄りでは、Claude Opus 4.6は1試合あたり$3.76です。試合も(kimi相手でない限り)通常2〜3時間程度で終わります。

また、ツール呼び出しのエラー率は0.4%で、かなり信頼性があります。

これにより現在、グループの上位エンドにおける最良のコストパフォーマンスのモデルという位置づけになります。

注目すべき動き:

注目すべきミス:

MiMo-V2.5-Proのトランスクリプト:https://clocktower-radio.com/search?a=MiMo-V2.5-Pro

仕組み:https://clocktower-radio.com/how-it-works

submitted by /u/cjami
[link] [comments]

MiMo-V2.5-Pro - 「実際に最強クラスの」オープンウェイトモデル | AI Navigate