AI Navigate

2つのベンチマークで評価された MiniMax M2.7。結果は次のとおり

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MiniMax M2.7はリリースされ、PinchBenchとKilo Benchの両方で、Qwen3.5-plus、GLM-5、Kimi K2.5、Qwen3.5-397b などの競合他社と比較ベンチマークされた。
  • PinchBenchでは、M2.7は86.2%を記録し、50モデル中5位にランクされ、GLM-5とGPT-5.4には及ばず、Qwen3.5-plusには僅差で先行した。この結果はM2.5から3.7ポイントの改善を示す。
  • Kilo Benchでは、M2.7はタスクの47%をクリアし、全体で2位となった。Qwen3.5-plusに次ぐ結果で、難問を過剰に探索する挙動があり、タイムアウトを招くことがある。
  • 定性的には、M2.7は執筆前に広範に読み込み、周囲のファイルや依存関係を取り込んで他者が見逃すタスクを解決する。複雑な問題では有利になる一方、時間制約が厳しい場合には遅くなる可能性がある。
  • 全体として、M2.7は高速で手頃な価格で、最先端モデルが見逃すギャップを埋め、MiniMaxを評価対象モデルのトップクラスへ押し上げている。
Benchmarked MiniMax M2.7 through 2 benchmarks. Here's how it did

MiniMaxは最新モデルのM2.7をリリースしたばかりで、これまでで最高のモデルです。私はKilo Codeチームと協力しており、新しいモデルが登場すると必ずテストします。そのため、M2.7をQwen3.5-plus、GLM-5、Kimi K2.5、Qwen3.5-397bと、2つのベンチマークで比較しました:

  1. PinchBench OpenClawエージェントベンチマーク、

  2. Kilo Bench、Git操作から暗号解析、QEMU自動化に至るまでのあらゆる作業を対象とした89タスクの評価。

TL;DR: M2.7はPinchBenchで86.2%を記録し、全体で5位に入り、Claude Opus 4.6から1.2ポイント差の位置にあります。Kilo Benchでは、独特の挙動プロファイルを持つ47%のタスクを通過します — 難解な問題を過剰に探索してタイムアウトになる可能性がありますが、他のモデルでは解けないタスクを解決します。これは、高速で手頃な価格のモデルで、前線モデルが見逃すいくつかのギャップを埋めます。

PinchBench: 50モデル中5位

PinchBenchは標準化されたOpenClawエージェントタスクを実行し、自動チェックとLLMジャッジで評価します。M2.7は86.2%を記録し、GLM-5とGPT-5.4の両方(いずれも86.4%)のすぐ後ろ、Qwen3.5-plus(85.8%)のわずか先に入りました。

https://preview.redd.it/np8d4t4c5zpg1.png?width=1272&format=png&auto=webp&s=ef745beb78a77ff579b003fc4d5056ded093fbf8

注目すべき点は、M2.5(82.5%)からM2.7(86.2%)への跳躍 — ミニマックスを中位の層からトップ層へ押し上げた3.7ポイントの改善。

Kilo Bench: 89タスク 対 5モデル

https://preview.redd.it/6x2wywxh5zpg1.png?width=1252&format=png&auto=webp&s=0fa69fb37643f020b2c4c84a30062a926feb60d5

M2.7は総合で47%で2位に入り、Qwen3.5-plusの2ポイント差でした。しかし、素の合格率だけでは全体の話は分かりません。

1つの傾向が際立った:MiniMax-M2.7は書く前に周囲のファイルを広く読み込みます。依存関係を分析し、呼び出しチェーンをたどります。その追加の文脈が価値を生むタスクでは、他のモデルが見逃すことを捉えます。一方、時計が進むタスクでは、その文脈読み込みが時間切れを招く可能性があります。

M2.7が際立つ点

Kilo Benchの最も興味深い発見は合格率そのものではありません。各モデルが独自に解くことの出来るタスクです。

この比較の全モデルは、他のモデルには解けないタスクを解決しました:

https://preview.redd.it/1jbp8kmn5zpg1.png?width=1456&format=png&auto=webp&s=ed19f753a93dcd1fdae96603ebb1804cdbfe71ff

M2.7のSPARQLタスクにおける独自の勝利は、その強さの良い例です。タスクはEU国フィルターが適格基準であり、出力フィルターではないことを理解することを求めました。これは推論の違いであり、コーディングの違いではありません。

タスクごとに最適なモデルを選ぶ仮想オラクルは、89タスク中60件(67%)を解くことになり、最良の単一モデルよりも36%改善します。これらのモデルは互換性があるわけではなく、補完的です。

89タスクは明確な階層に分かれます:

  • 18タスクは5モデル全てが解決 — Git操作、テキスト処理、基本的なML、インフラの設定。これらは2026年のどんな有能なコーディングモデルにも必須の要素です。
  • 17タスクで2-3モデルが成功 — ここがモデル選択が実際に重要になる場所です。微分暗号解析、Cythonビルド、推論スケジューリングのようなタスクは、挙動傾向でモデルを区別します。生の能力だけでなく。
  • 29タスクはどのモデルも解けず — 回路合成、MIPSエミュレーション、ピクセル精度のレンダリング、競合CoreWars。これらは、どのモデルを選んでもLLMベースのエージェントにとって現時点での難易度の上限を表します。

トークン効率

https://preview.redd.it/40ie6y7w5zpg1.png?width=1284&format=png&auto=webp&s=7a8333f23f10336f4da5963b23b662f29a9b62ac

Based on both benchmarks, here’s how M2.7 fits into the model landscape available in Kilo:

M2.7 is a strong pick when you’re working on tasks that reward deep context gathering — complex refactors, codebase-wide changes, or anything where understanding surrounding code matters more than speed. Its PinchBench score puts it in the same tier as GPT-5.4 and GLM-5 for general agent tasks. Compared to frontier models like Opus 4.6 and GPT 5.4 that offer the same attributes, it’s much less expensive at $0.30/M input and $1.20/M output.

Consider a different model (even such as M2.1 or M2.5) when you need very fast iteration cycles or are working on well-scoped, time-sensitive tasks. M2.7’s median task duration (355s) is notably longer than its predecessors.

Full analysis - https://blog.kilo.ai/p/minimax-m27

投稿者: /u/alokin_09
[リンク] [コメント]