Mistral 3.5 MediumのTerminal Benchスコア（TBLiteによるベンチ結果）

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

著者は、TerminalBench 2.0（TB2）が負荷の大きいため、自身でTBLiteを用いてMistral 3.5 Mediumをベンチマークし、「エージェンティック」な振る舞いやツール利用の得意さを推定したと述べています。
TBLiteはTB2とスコアを直接対応付けできないものの、モデル間の傾向は反映されるため、TBLiteで上回るモデルはTB2でも良い可能性があると説明しています。
1回だけの実行であり（精度は100%ではない）、結果を共有しつつ、他モデルのTBLite報告値やSWEBench Verifiedのスコアとも比較しています。
結果は、過去のMistralモデルと比べてMistral 3.5 Mediumがエージェント／ツール呼び出し能力を大きく改善していることを示唆し、以前小型モデル（Mistral Small 4）がツール呼び出しやエージェントループで不調だったという報告と対照的です。
全体として、Mistral 3.5 Mediumは「サイズの割に非常に良い」とされ、エージェント的ループ場面での改善に重点が置かれています。

それで…mistralai が Mistral 3.5 Medium のモデルカードで報告していた、いくつか有望なベンチマークスコアがありました。BUT 私が普段いちばん気にしているやつ、TerminalBench 2.0 がありませんでした。なので…新しい Mistral がエージェント的なものをどう扱うのかがすごく気になったので、自分でベンチマークしてみることにしました。

私は TerminalBench 2.0 は実行しませんでした。というのも、私は正気じゃないわけではないので（使用量がめっちゃ大きくなりそうだったため）…ただ、TerminalBench 2.0 の軽量・高速版である TBLite は実行しました。この小さなバリアントのスコアは TB2 のスコアと直接は相関しませんが、モデル間の傾向は一致します（あるモデルが TBLite で他のモデルより良いなら、TerminalBench 2.0 でも同様に良いはずです）。

実行は1回だけなので、100% 正確とは言えないと思いますが、それでもここで結果を共有しようと思いました。というのも、誰かも同じように気になっているかもしれないからです。特に、Mistral Small 4 はツール呼び出しやエージェントのループという点で…かなりひどかったので。とはいえ…結果は下にあります。ベンチマークカードに TBLite のスコアが載っている他のモデルをいくつか追加し、さらに比較のために GPT-5.4、Opus4.6、GLM-5 の SWEBench Verified スコアも追加しました。

まあ正直に言うと。サイズ的に Mistral 3.5 Medium は本当によく、そして何よりも過去の mistralai のモデルと比べて大幅に改善しています。（やったー、私は Mistral を本気で応援しています）

https://preview.redd.it/bgrl55b6ocyg1.png?width=1672&format=png&auto=webp&s=a3b9a87e4bce2b1b3cb7787c377c5387a7c0a67e

submitted by /u/Real_Ebb_7417
[link] [comments]

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

日経XTECH

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

Mistral 3.5 MediumのTerminal Benchスコア（TBLiteによるベンチ結果）

要点

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ