ドキュメント理解ベンチマークにおける Mistral Small 4 対 Qwen3.5-9B、ただし GPT-4.1 を上回る

Reddit r/LocalLLaMA / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

ドキュメント課題のリーダーボードでは、Qwen3.5-9B が 14 のサブベンチマーク中 10 を獲得、Mistral Small 4 は 2 を獲得し、引き分けは 2。全体として Qwen の順位は #9（77.0）、Mistral の順位は #11（71.5）。
OlmOCR ベンチでは、Qwen が全サブカテゴリで Mistral を上回る（78.1 対 69.6）、最大の差は数学 OCR（85.5 対 66）。両モデルとも欠落検出が弱い（57.2 対 44.7）。
OmniDocBench の結果は非常に接近（76.7 対 76.4）。表構造指標では Mistral が優位（TEDS 75.1 対 73.9；TEDS-S 82.7 対 77.6）、一方で Qwen は CDM と読み順タスクを取る。
IDP Core Bench では Qwen が支配的（76.2 対 68.5；KIE 86.5 対 78.3；OCR 65.5 対 57.4）、各指標で Qwen の方が広い強さを示している。
重要な結論として、9B の密結合モデルがこれらのドキュメントタスクで 119B MoE を凌ぐことがある。パラメータ数が全てではないことを示しており、本投稿では NVFP4 4-bit 量子化をローカル実行の実用的な道として議論しており、過度な圧縮下での視覚品質には留意点がある。

文書理解ベンチマークでの Mistral Small 4 対 Qwen3.5-9B、ただし GPT-4.1 より優れている

Mistral Small 4をMistral API経由でいくつかの文書タスクに走らせて、実際にどこに位置するのかを見てみました。

このリーダーボードは文書タスクの対戦比較を行います：
https://www.idp-leaderboard.org/compare/?models=mistral-small-4,qwen3-5-9b

要約: Qwen3.5-9B は 14 のサブベンチマーク中 10 勝ちました。Mistral は 2 勝、引き分けは 2 件。Qwen は第9位で 77.0、Mistral は第11位で 71.5。

OlmOCR ベンチマーク: Qwen 78.1、Mistral 69.6。Qwenはすべてのサブカテゴリで勝利。数式 OCR のギャップが最大で、85.5 対 66。欠落検出は両方とも悪い（57.2 対 44.7）だが、Mistral の方が悪い。

OmniDocBench: 三つのうち最も接近しており、76.7 対 76.4。Mistralは実際に表構造の指標で勝ち、TEDS は 75.1 対 73.9、 TEDS-S は 82.7 対 77.6。Qwen は CDM と読み順を取る。

IDP Core Bench: Qwen 76.2、Mistral 68.5。KIE は 86.5 対 78.3、OCR は 65.5 対 57.4。全体的に Qwen が上回る。

レーダーチャートは視覚的に物語を伝えます。Qwenの方が大きく鋭く、テキスト抽出で84.7にピークを迎えます。Mistralの方は小さく引き締まった六角形です。すべて75.5〜78.3の範囲で、ばらつきは3ポイント未満。高い下限、低い天井。

注: これは 9B の密度モデルが 119B の MoE (6B 活性) を打ち負かしている点です。文書タスクにおけるパラメータ数が全てではありません。

ひとつ気になる点は NVFP4 の量子化です。Mistral は 4ビットに量子化されたチェックポイントを公開しており、フル精度でのモデルは242GBです。ローカルで実行したい人には、量子化が現実的な唯一の道で、4xH100 がない限りそうです。ただし、視覚機能がこの圧縮で生き残るかは分かりません。上記のベンチマークは API 経由のフル精度です。

ドキュメントタスクのNVFP4 量子化を実行している方はいますか？量子化後に視覚品質が生き残るか気になりますか？

投稿者 /u/shhdwi
[リンク] [コメント]

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

ドキュメント理解ベンチマークにおける Mistral Small 4 対 Qwen3.5-9B、ただし GPT-4.1 を上回る

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer