文書ベンチマークにおける Qwen3.5-9B：フロンティアモデルに勝る点と勝てない点

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースModels & Research

原文を読む →

共有:

要点

オープンな文書AIベンチマークで20モデル、9,000件以上の実文書を評価し、Qwen3.5シリーズの全サイズを追加して各タスクの内訳を公開した。
生テキスト抽出ではQwen3.5-9BとQwen3.5-4Bがフロンティアモデルを上回り、9Bと4Bは全 frontier モデルを凌駕する。2BはGPT-5.4とほぼ互換。
VQAではQwen3.5-9BがGemini 3.1 Proに次ぐ成績で、GPT-5.4を上回り、Claude Sonnet 4.6やGemini Flashを大きく上回る。
KIE（請求書番号・日付・金額の抽出）ではQwen3.5-9Bが86.5、Qwen3.5-4Bが86.0でGPT-5.4を上回る一方、Gemini系には及ばない。
表データ抽出（GrITS）ではフロンティアモデルが高得点を取る一方、Qwenは76.6–76.7に留まり、アーキテクチャ上の限界と推定される。

$\"Qwen3.5-9Bの文書ベンチマーク:$

私たちはオープンな文書AIベンチマークを実行しています。20モデル、9,000件以上の実際の文書。Qwen3.5の4サイズすべてを追加しました（0.8Bから9Bまで）。現在、すべてのモデルのタスク別の内訳が得られています。

結果はここで確認できます： idp-leaderboard.org

全てのQwenが勝つまたは同等の箇所:

OlmOCR（乱れたスキャン、密集したPDF、複数列レイアウトからのテキスト抽出）:

Qwen3.5-9B: 78.1
Qwen3.5-4B: 77.2
Gemini 3.1 Pro: 74.6
Claude Sonnet 4.6: 74.4
Qwen3.5-2B: 73.7
GPT-5.4: 73.4

9Bと4Bは生テキスト抽出で全フロンティアモデルを上回ります。2BはGPT-5.4に匹敵します。

VQA（文書の内容、グラフ、表についての質問に回答する）:

Gemini 3.1 Pro: 85.0
Qwen3.5-9B: 79.5
GPT-5.4: 78.2
Qwen3.5-4B: 72.4
Claude Sonnet 4.6: 65.2
GPT-5.2: 63.5
Gemini 3 Flash: 63.5

この項目には私たちが最も驚きました。9BはVQAでGemini 3.1 Proに次ぐ2位です。GPT-5.4を僅差で上回っています。Claude Sonnetに14ポイント、Gemini Flashに16ポイントのリード。9Bのオープンモデルとして、そのVQAスコアの説明は難しいです。

KIE（請求書番号、日付、金額の抽出）:

Gemini 3 Flash: 91.1
Claude Opus 4.6: 89.8
Claude Sonnet 4.6: 89.5
GPT-5.2: 87.5
Gemini 3.1 Pro: 86.8
Qwen3.5-9B: 86.5
Qwen3.5-4B: 86.0
GPT-5.4: 85.7

Qwen-9BはGemini 3.1 Proに匹敵します。Qwen-4BはGPT-5.4に匹敵します。どちらもGPT-5-Mini（85.7）、Claude Haiku（85.6）、Ministral-8B（85.7）より上。4Bモデルが実務レベルの現場抽出を行います。

フロンティアモデルが明らかに優れている箇所。

表抽出（GrITS）:

Gemini 3.1 Pro: 96.4
Claude Sonnet: 96.3
GPT-5.4: 94.8
Gemini 3 Pro: 95.8
GPT-5.2: 86.0
Gemini 3 Flash: 85.6
Qwen3.5-4B: 76.7
Qwen3.5-9B: 76.6

フロンティアモデルは表で85から96です。Qwenはサイズに関係なく76から77のまま。4Bと9Bは本質的に同じです。これはアーキテクチャの限界のように見え、スケールの限界ではありません。

手書きOCR:

Gemini 3.1 Pro: 82.8
Gemini 3 Flash: 81.7
GPT-4.1: 75.6
Claude Opus: 74.0
Claude Sonnet: 73.7
GPT-5.4: 69.1
Ministral-8B: 67.8
Qwen3.5-9B: 65.5
Qwen3.5-4B: 64.7

Geminiは手書き文字を圧倒します。Qwenは遅れていますが、GPT-5.4には大きな差はありません（69.1対65.5）。

Qwenファミリー内のスケーリング：

全体：0.8B 58.0、2B 63.2、4B 73.1、9B 77.0

要約：

OCR抽出：Qwen 4B/9B がすべてのフロンティアモデルを上回る
VQA推論：Qwen-9BはGemini 3.1 Proに次ぐ2位。GPT-5.4を上回る。
KIEフィールド抽出：Qwen 4B/9B がフロンティアモデルと互換する
表抽出：フロンティアモデルが10〜20ポイントリード

すべての予測が表示されます。同じ文書上でQwenの出力を任意のモデルと比較してください。

idp-leaderboard.org/explore

投稿者: /u/shhdwi
[リンク] [コメント]

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

文書ベンチマークにおける Qwen3.5-9B：フロンティアモデルに勝る点と勝てない点

要点

関連記事

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer