我々はIDPリーダーボードをリリースします。これは文書理解タスクのためのオープン評価フレームワークです。OlmOCR、OmniDoc、および当社独自のIDP Coreベンチマーク(KIE、表抽出、VQA、OCR、分類、長文処理を含む)で16のモデルをテストしています。
主な結果:
- Gemini 3.1 Proが全体でトップ(83.2)ですが、差はわずかで上位5モデルは2.4ポイント以内に収まっています。
- 安価なモデルバリアント(Flash、Sonnet)はフラッグシップモデルとほぼ同等の抽出品質を示します。差が出るのはVQAのような推論が重いタスクのみです。
- GPT-5.4はGPT-4.1に比べ大きくジャンプしました(全体スコア70から81へ、DocVQAは42%から91%へ)。
- スパースで非構造化の表は最も難しいタスクのままです。ほとんどのモデルが55%未満です。
- 手書きOCRは最高で76%に達しています。
我々はまた、各文書ごとにすべてのモデルの生の予測と正解を並べて表示するResults Explorerを作成しました。単なるスコアではありません。
これにより、実際の予測と正解を見ながらどのモデルが自分に合うかを判断できます。
詳細はこちらをご覧ください:https://nanonets.com/blog/idp-leaderboard-1-5/
データセットはこちら:huggingface.co/collections/nanonets/idp-leaderboard
リーダーボードおよびResults Explorerはこちら:idp-leaderboard.org