ドキュメント理解ベンチマークにおける Mistral Small 4 対 Qwen3.5-9B、ただし GPT-4.1 を上回る

Reddit r/LocalLLaMA / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ドキュメント課題のリーダーボードでは、Qwen3.5-9B が 14 のサブベンチマーク中 10 を獲得、Mistral Small 4 は 2 を獲得し、引き分けは 2。全体として Qwen の順位は #9(77.0)、Mistral の順位は #11(71.5)。
  • OlmOCR ベンチでは、Qwen が全サブカテゴリで Mistral を上回る(78.1 対 69.6)、最大の差は数学 OCR(85.5 対 66)。両モデルとも欠落検出が弱い(57.2 対 44.7)。
  • OmniDocBench の結果は非常に接近(76.7 対 76.4)。表構造指標では Mistral が優位(TEDS 75.1 対 73.9;TEDS-S 82.7 対 77.6)、一方で Qwen は CDM と読み順タスクを取る。
  • IDP Core Bench では Qwen が支配的(76.2 対 68.5;KIE 86.5 対 78.3;OCR 65.5 対 57.4)、各指標で Qwen の方が広い強さを示している。
  • 重要な結論として、9B の密結合モデルがこれらのドキュメントタスクで 119B MoE を凌ぐことがある。パラメータ数が全てではないことを示しており、本投稿では NVFP4 4-bit 量子化をローカル実行の実用的な道として議論しており、過度な圧縮下での視覚品質には留意点がある。
文書理解ベンチマークでの Mistral Small 4 対 Qwen3.5-9B、ただし GPT-4.1 より優れている

Mistral Small 4をMistral API経由でいくつかの文書タスクに走らせて、実際にどこに位置するのかを見てみました。

このリーダーボードは文書タスクの対戦比較を行います:
https://www.idp-leaderboard.org/compare/?models=mistral-small-4,qwen3-5-9b

要約: Qwen3.5-9B は 14 のサブベンチマーク中 10 勝ちました。Mistral は 2 勝、引き分けは 2 件。Qwen は 第9位で 77.0、Mistral は 第11位で 71.5。

OlmOCR ベンチマーク: Qwen 78.1、Mistral 69.6。Qwenはすべてのサブカテゴリで勝利。数式 OCR のギャップが最大で、85.5 対 66。欠落検出は両方とも悪い(57.2 対 44.7)だが、Mistral の方が悪い。

OmniDocBench: 三つのうち最も接近しており、76.7 対 76.4。Mistralは実際に表構造の指標で勝ち、TEDS は 75.1 対 73.9、 TEDS-S は 82.7 対 77.6。Qwen は CDM と読み順を取る。

IDP Core Bench: Qwen 76.2、Mistral 68.5。KIE は 86.5 対 78.3、OCR は 65.5 対 57.4。全体的に Qwen が上回る。

レーダーチャートは視覚的に物語を伝えます。Qwenの方が大きく鋭く、テキスト抽出で84.7にピークを迎えます。Mistralの方は小さく引き締まった六角形です。すべて75.5〜78.3の範囲で、ばらつきは3ポイント未満。高い下限、低い天井。

注: これは 9B の密度モデルが 119B の MoE (6B 活性) を打ち負かしている点です。文書タスクにおけるパラメータ数が全てではありません。

ひとつ気になる点は NVFP4 の量子化です。Mistral は 4ビットに量子化されたチェックポイントを公開しており、フル精度でのモデルは242GBです。ローカルで実行したい人には、量子化が現実的な唯一の道で、4xH100 がない限りそうです。ただし、視覚機能がこの圧縮で生き残るかは分かりません。上記のベンチマークは API 経由のフル精度です。

ドキュメントタスクのNVFP4 量子化を実行している方はいますか?量子化後に視覚品質が生き残るか気になりますか?

投稿者 /u/shhdwi
[リンク] [コメント]