文書ベンチマークにおける Qwen3.5-9B:フロンティアモデルに勝る点と勝てない点

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースModels & Research

要点

  • オープンな文書AIベンチマークで20モデル、9,000件以上の実文書を評価し、Qwen3.5シリーズの全サイズを追加して各タスクの内訳を公開した。
  • 生テキスト抽出ではQwen3.5-9BとQwen3.5-4Bがフロンティアモデルを上回り、9Bと4Bは全 frontier モデルを凌駕する。2BはGPT-5.4とほぼ互換。
  • VQAではQwen3.5-9BがGemini 3.1 Proに次ぐ成績で、GPT-5.4を上回り、Claude Sonnet 4.6やGemini Flashを大きく上回る。
  • KIE(請求書番号・日付・金額の抽出)ではQwen3.5-9Bが86.5、Qwen3.5-4Bが86.0でGPT-5.4を上回る一方、Gemini系には及ばない。
  • 表データ抽出(GrITS)ではフロンティアモデルが高得点を取る一方、Qwenは76.6–76.7に留まり、アーキテクチャ上の限界と推定される。
\"Qwen3.5-9Bの文書ベンチマーク:

私たちはオープンな文書AIベンチマークを実行しています。20モデル、9,000件以上の実際の文書。Qwen3.5の4サイズすべてを追加しました(0.8Bから9Bまで)。現在、すべてのモデルのタスク別の内訳が得られています。

結果はここで確認できます: idp-leaderboard.org

全てのQwenが勝つまたは同等の箇所:

OlmOCR(乱れたスキャン、密集したPDF、複数列レイアウトからのテキスト抽出):

Qwen3.5-9B: 78.1
Qwen3.5-4B: 77.2
Gemini 3.1 Pro: 74.6
Claude Sonnet 4.6: 74.4
Qwen3.5-2B: 73.7
GPT-5.4: 73.4

9Bと4Bは生テキスト抽出で全フロンティアモデルを上回ります。2BはGPT-5.4に匹敵します。

VQA(文書の内容、グラフ、表についての質問に回答する):

Gemini 3.1 Pro: 85.0
Qwen3.5-9B: 79.5
GPT-5.4: 78.2
Qwen3.5-4B: 72.4
Claude Sonnet 4.6: 65.2
GPT-5.2: 63.5
Gemini 3 Flash: 63.5

この項目には私たちが最も驚きました。9BはVQAでGemini 3.1 Proに次ぐ2位です。GPT-5.4を僅差で上回っています。Claude Sonnetに14ポイント、Gemini Flashに16ポイントのリード。9Bのオープンモデルとして、そのVQAスコアの説明は難しいです。

KIE(請求書番号、日付、金額の抽出):

Gemini 3 Flash: 91.1
Claude Opus 4.6: 89.8
Claude Sonnet 4.6: 89.5
GPT-5.2: 87.5
Gemini 3.1 Pro: 86.8
Qwen3.5-9B: 86.5
Qwen3.5-4B: 86.0
GPT-5.4: 85.7

Qwen-9BはGemini 3.1 Proに匹敵します。Qwen-4BはGPT-5.4に匹敵します。どちらもGPT-5-Mini(85.7)、Claude Haiku(85.6)、Ministral-8B(85.7)より上。4Bモデルが実務レベルの現場抽出を行います。

フロンティアモデルが明らかに優れている箇所。

表抽出(GrITS):

Gemini 3.1 Pro: 96.4
Claude Sonnet: 96.3
GPT-5.4: 94.8
Gemini 3 Pro: 95.8
GPT-5.2: 86.0
Gemini 3 Flash: 85.6
Qwen3.5-4B: 76.7
Qwen3.5-9B: 76.6

フロンティアモデルは表で85から96です。Qwenはサイズに関係なく76から77のまま。4Bと9Bは本質的に同じです。これはアーキテクチャの限界のように見え、スケールの限界ではありません。

手書きOCR:

Gemini 3.1 Pro: 82.8
Gemini 3 Flash: 81.7
GPT-4.1: 75.6
Claude Opus: 74.0
Claude Sonnet: 73.7
GPT-5.4: 69.1
Ministral-8B: 67.8
Qwen3.5-9B: 65.5
Qwen3.5-4B: 64.7

Geminiは手書き文字を圧倒します。Qwenは遅れていますが、GPT-5.4には大きな差はありません(69.1対65.5)。

Qwenファミリー内のスケーリング:

全体:0.8B 58.0、2B 63.2、4B 73.1、9B 77.0

要約:

OCR抽出:Qwen 4B/9B がすべてのフロンティアモデルを上回る
VQA推論:Qwen-9BはGemini 3.1 Proに次ぐ2位。GPT-5.4を上回る。
KIEフィールド抽出:Qwen 4B/9B がフロンティアモデルと互換する
表抽出:フロンティアモデルが10〜20ポイントリード

すべての予測が表示されます。同じ文書上でQwenの出力を任意のモデルと比較してください。

idp-leaderboard.org/explore

投稿者: /u/shhdwi
[リンク] [コメント]