| MiniMaxは最新モデルのM2.7をリリースしたばかりで、これまでで最高のモデルです。私はKilo Codeチームと協力しており、新しいモデルが登場すると必ずテストします。そのため、M2.7をQwen3.5-plus、GLM-5、Kimi K2.5、Qwen3.5-397bと、2つのベンチマークで比較しました:
TL;DR: M2.7はPinchBenchで86.2%を記録し、全体で5位に入り、Claude Opus 4.6から1.2ポイント差の位置にあります。Kilo Benchでは、独特の挙動プロファイルを持つ47%のタスクを通過します — 難解な問題を過剰に探索してタイムアウトになる可能性がありますが、他のモデルでは解けないタスクを解決します。これは、高速で手頃な価格のモデルで、前線モデルが見逃すいくつかのギャップを埋めます。 PinchBench: 50モデル中5位 PinchBenchは標準化されたOpenClawエージェントタスクを実行し、自動チェックとLLMジャッジで評価します。M2.7は86.2%を記録し、GLM-5とGPT-5.4の両方(いずれも86.4%)のすぐ後ろ、Qwen3.5-plus(85.8%)のわずか先に入りました。 注目すべき点は、M2.5(82.5%)からM2.7(86.2%)への跳躍 — ミニマックスを中位の層からトップ層へ押し上げた3.7ポイントの改善。 Kilo Bench: 89タスク 対 5モデル M2.7は総合で47%で2位に入り、Qwen3.5-plusの2ポイント差でした。しかし、素の合格率だけでは全体の話は分かりません。 1つの傾向が際立った:MiniMax-M2.7は書く前に周囲のファイルを広く読み込みます。依存関係を分析し、呼び出しチェーンをたどります。その追加の文脈が価値を生むタスクでは、他のモデルが見逃すことを捉えます。一方、時計が進むタスクでは、その文脈読み込みが時間切れを招く可能性があります。 M2.7が際立つ点 Kilo Benchの最も興味深い発見は合格率そのものではありません。各モデルが独自に解くことの出来るタスクです。 この比較の全モデルは、他のモデルには解けないタスクを解決しました: M2.7のSPARQLタスクにおける独自の勝利は、その強さの良い例です。タスクはEU国フィルターが適格基準であり、出力フィルターではないことを理解することを求めました。これは推論の違いであり、コーディングの違いではありません。 タスクごとに最適なモデルを選ぶ仮想オラクルは、89タスク中60件(67%)を解くことになり、最良の単一モデルよりも36%改善します。これらのモデルは互換性があるわけではなく、補完的です。 89タスクは明確な階層に分かれます:
トークン効率 Based on both benchmarks, here’s how M2.7 fits into the model landscape available in Kilo: M2.7 is a strong pick when you’re working on tasks that reward deep context gathering — complex refactors, codebase-wide changes, or anything where understanding surrounding code matters more than speed. Its PinchBench score puts it in the same tier as GPT-5.4 and GLM-5 for general agent tasks. Compared to frontier models like Opus 4.6 and GPT 5.4 that offer the same attributes, it’s much less expensive at $0.30/M input and $1.20/M output. Consider a different model (even such as M2.1 or M2.5) when you need very fast iteration cycles or are working on well-scoped, time-sensitive tasks. M2.7’s median task duration (355s) is notably longer than its predecessors. Full analysis - https://blog.kilo.ai/p/minimax-m27 [リンク] [コメント] |
2つのベンチマークで評価された MiniMax M2.7。結果は次のとおり
Reddit r/LocalLLaMA / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MiniMax M2.7はリリースされ、PinchBenchとKilo Benchの両方で、Qwen3.5-plus、GLM-5、Kimi K2.5、Qwen3.5-397b などの競合他社と比較ベンチマークされた。
- PinchBenchでは、M2.7は86.2%を記録し、50モデル中5位にランクされ、GLM-5とGPT-5.4には及ばず、Qwen3.5-plusには僅差で先行した。この結果はM2.5から3.7ポイントの改善を示す。
- Kilo Benchでは、M2.7はタスクの47%をクリアし、全体で2位となった。Qwen3.5-plusに次ぐ結果で、難問を過剰に探索する挙動があり、タイムアウトを招くことがある。
- 定性的には、M2.7は執筆前に広範に読み込み、周囲のファイルや依存関係を取り込んで他者が見逃すタスクを解決する。複雑な問題では有利になる一方、時間制約が厳しい場合には遅くなる可能性がある。
- 全体として、M2.7は高速で手頃な価格で、最先端モデルが見逃すギャップを埋め、MiniMaxを評価対象モデルのトップクラスへ押し上げている。

