| それで…mistralai が Mistral 3.5 Medium のモデルカードで報告していた、いくつか有望なベンチマークスコアがありました。BUT 私が普段いちばん気にしているやつ、TerminalBench 2.0 がありませんでした。なので…新しい Mistral がエージェント的なものをどう扱うのかがすごく気になったので、自分でベンチマークしてみることにしました。 私は TerminalBench 2.0 は実行しませんでした。というのも、私は正気じゃないわけではないので(使用量がめっちゃ大きくなりそうだったため)…ただ、TerminalBench 2.0 の軽量・高速版である TBLite は実行しました。この小さなバリアントのスコアは TB2 のスコアと直接は相関しませんが、モデル間の傾向は一致します(あるモデルが TBLite で他のモデルより良いなら、TerminalBench 2.0 でも同様に良いはずです)。 実行は1回だけなので、100% 正確とは言えないと思いますが、それでもここで結果を共有しようと思いました。というのも、誰かも同じように気になっているかもしれないからです。特に、Mistral Small 4 はツール呼び出しやエージェントのループという点で…かなりひどかったので。とはいえ…結果は下にあります。ベンチマークカードに TBLite のスコアが載っている他のモデルをいくつか追加し、さらに比較のために GPT-5.4、Opus4.6、GLM-5 の SWEBench Verified スコアも追加しました。 まあ正直に言うと。サイズ的に Mistral 3.5 Medium は本当によく、そして何よりも過去の mistralai のモデルと比べて大幅に改善しています。(やったー、私は Mistral を本気で応援しています) [link] [comments] |
Mistral 3.5 MediumのTerminal Benchスコア(TBLiteによるベンチ結果)
Reddit r/LocalLLaMA / 2026/5/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 著者は、TerminalBench 2.0(TB2)が負荷の大きいため、自身でTBLiteを用いてMistral 3.5 Mediumをベンチマークし、「エージェンティック」な振る舞いやツール利用の得意さを推定したと述べています。
- TBLiteはTB2とスコアを直接対応付けできないものの、モデル間の傾向は反映されるため、TBLiteで上回るモデルはTB2でも良い可能性があると説明しています。
- 1回だけの実行であり(精度は100%ではない)、結果を共有しつつ、他モデルのTBLite報告値やSWEBench Verifiedのスコアとも比較しています。
- 結果は、過去のMistralモデルと比べてMistral 3.5 Mediumがエージェント/ツール呼び出し能力を大きく改善していることを示唆し、以前小型モデル(Mistral Small 4)がツール呼び出しやエージェントループで不調だったという報告と対照的です。
- 全体として、Mistral 3.5 Mediumは「サイズの割に非常に良い」とされ、エージェント的ループ場面での改善に重点が置かれています。



