Mistral 3.5 MediumのTerminal Benchスコア(TBLiteによるベンチ結果)

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、TerminalBench 2.0(TB2)が負荷の大きいため、自身でTBLiteを用いてMistral 3.5 Mediumをベンチマークし、「エージェンティック」な振る舞いやツール利用の得意さを推定したと述べています。
  • TBLiteはTB2とスコアを直接対応付けできないものの、モデル間の傾向は反映されるため、TBLiteで上回るモデルはTB2でも良い可能性があると説明しています。
  • 1回だけの実行であり(精度は100%ではない)、結果を共有しつつ、他モデルのTBLite報告値やSWEBench Verifiedのスコアとも比較しています。
  • 結果は、過去のMistralモデルと比べてMistral 3.5 Mediumがエージェント/ツール呼び出し能力を大きく改善していることを示唆し、以前小型モデル(Mistral Small 4)がツール呼び出しやエージェントループで不調だったという報告と対照的です。
  • 全体として、Mistral 3.5 Mediumは「サイズの割に非常に良い」とされ、エージェント的ループ場面での改善に重点が置かれています。
Mistral 3.5 Medium の Terminal Bench スコア

それで…mistralai が Mistral 3.5 Medium のモデルカードで報告していた、いくつか有望なベンチマークスコアがありました。BUT 私が普段いちばん気にしているやつ、TerminalBench 2.0 がありませんでした。なので…新しい Mistral がエージェント的なものをどう扱うのかがすごく気になったので、自分でベンチマークしてみることにしました。

私は TerminalBench 2.0 は実行しませんでした。というのも、私は正気じゃないわけではないので(使用量がめっちゃ大きくなりそうだったため)…ただ、TerminalBench 2.0 の軽量・高速版である TBLite は実行しました。この小さなバリアントのスコアは TB2 のスコアと直接は相関しませんが、モデル間の傾向は一致します(あるモデルが TBLite で他のモデルより良いなら、TerminalBench 2.0 でも同様に良いはずです)。

実行は1回だけなので、100% 正確とは言えないと思いますが、それでもここで結果を共有しようと思いました。というのも、誰かも同じように気になっているかもしれないからです。特に、Mistral Small 4 はツール呼び出しやエージェントのループという点で…かなりひどかったので。とはいえ…結果は下にあります。ベンチマークカードに TBLite のスコアが載っている他のモデルをいくつか追加し、さらに比較のために GPT-5.4、Opus4.6、GLM-5 の SWEBench Verified スコアも追加しました。

まあ正直に言うと。サイズ的に Mistral 3.5 Medium は本当によく、そして何よりも過去の mistralai のモデルと比べて大幅に改善しています。(やったー、私は Mistral を本気で応援しています)

https://preview.redd.it/bgrl55b6ocyg1.png?width=1672&format=png&auto=webp&s=a3b9a87e4bce2b1b3cb7787c377c5387a7c0a67e

submitted by /u/Real_Ebb_7417
[link] [comments]