[R] IDPリーダーボード：16のVLM、9,000以上の文書、3つのベンチマークスイートを横断するドキュメントAIのオープンベンチマーク

Reddit r/MachineLearning / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

IDPリーダーボードは、KIE、表抽出、VQA、OCR、分類、長文処理など多様な文書理解タスクに焦点を当てた3つのベンチマークスイートで16のドキュメントAIモデルを評価するオープン評価フレームワークです。
Gemini 3.1 Proが全体スコア83.2でリーダーボードをリードする一方、FlashやSonnetなどのより安価なモデルも抽出タスクではほぼ同等の性能を示すが、VQAのような推論の重いタスクでは差が現れます。
GPT-5.4はGPT-4.1に比べ大幅に性能が向上し、特に文書VQAタスクで42％から91％にスコアが飛躍的に上昇しています。
最難関タスクはスパースで非構造化の表抽出で、多くのモデルが55％以下のスコアにとどまっています。また、手書きOCRの最高精度は76％です。
各文書の正解データとモデルの予測を並べて表示するResults Explorerツールが導入され、透明性が向上し、ユーザーがニーズに最も適したモデルを選びやすくなっています。

我々はIDPリーダーボードをリリースします。これは文書理解タスクのためのオープン評価フレームワークです。OlmOCR、OmniDoc、および当社独自のIDP Coreベンチマーク（KIE、表抽出、VQA、OCR、分類、長文処理を含む）で16のモデルをテストしています。

主な結果：

- Gemini 3.1 Proが全体でトップ（83.2）ですが、差はわずかで上位5モデルは2.4ポイント以内に収まっています。

- 安価なモデルバリアント（Flash、Sonnet）はフラッグシップモデルとほぼ同等の抽出品質を示します。差が出るのはVQAのような推論が重いタスクのみです。

- GPT-5.4はGPT-4.1に比べ大きくジャンプしました（全体スコア70から81へ、DocVQAは42％から91％へ）。

- スパースで非構造化の表は最も難しいタスクのままです。ほとんどのモデルが55％未満です。

- 手書きOCRは最高で76％に達しています。

我々はまた、各文書ごとにすべてのモデルの生の予測と正解を並べて表示するResults Explorerを作成しました。単なるスコアではありません。

これにより、実際の予測と正解を見ながらどのモデルが自分に合うかを判断できます。

リーダーボードおよびResults Explorerはこちら：idp-leaderboard.org

Publickey

Publickey

Dev.to

Dev.to

Dev.to