AI Navigate

Qianfan-OCR — 4Bパラメータのエンドツーエンド文書AIモデル: OmniDocBench v1.5 で 93.12 点、192 言語対応、vLLM を搭載した単一の A100 上で動作

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Qianfan-OCR は、OCR、レイアウト分析、表抽出、式認識、チャート理解、主要情報抽出を単一の前方伝播で処理する、4Bパラメータのエンドツーエンド文書理解ビジョン-ランゲージモデルである。
  • Layout-as-Thought 機能を導入し、オプションの <think> 推論フェーズを有効にすることで、境界ボックス、要素タイプ、読み順を改善し、速度と精度のトレードオフを取る。
  • ベンチマーク結果は、OmniDocBench v1.5 が 93.12 点(エンドツーエンドモデルの中でトップ)、OCRBench が 880、KIE 平均が 87.9 で、いくつかの大規模モデルを凌駕している。
  • 実用展開の詳細には、デフォルトで vLLM 互換性を備え、W8A8 量子化を用いた単一の A100 における推論が 1.024 ページ/秒、192 言語対応、4 段階にわたる学習を 1,024 基の Kunlun P800 チップ上で、総計 2.85兆トークンで実施。

私たちは最近、オープンソース化した Qianfan-OCR、文書理解のための4Bパラメータの視覚言語モデルです。

通常の検出 → 認識 → LLM パイプラインの代わりに、このモデルはOCR、レイアウト解析、表の抽出、式の認識、図表の理解、そして重要情報の抽出を — 全て1回のフォワードパスで処理します。

コアアイデア: レイアウトを思考として扱う

このモデルは任意で <think> 推論フェーズに入り、境界ボックス、要素タイプ、読み順について推論します。これを、ドキュメントレイアウト向けの Chain-of-Thought のようなものと考えてください。追加の精度が必要か、速度を優先したいかに応じてオン/オフできます。

ベンチマーク:

Benchmark Qianfan-OCR (4B) 備考
OmniDocBench v1.5 93.12 #1 among end-to-end models
OCRBench 880
KIE (avg) 87.9 Gemini-3.1-Pro および Qwen3-VL-235B を上回る

実用的な情報:

  • 単一の A100 推論: 1.024 ページ/秒(W8A8 量子化)
  • 192 言語(ラテン文字、キリル文字、アラビア文字、南アジア・東南アジアの言語、CJK)
  • vLLM とそのまま連携して動作します
  • 4 段階にわたり 2.85T トークンを用いて、1,024個の Kunlun P800 チップ上で訓練

リンク:

アーキテクチャ、トレーニング、デプロイメントに関する質問には喜んでお答えします。

投稿者: /u/Dear-Cow3657
[リンク] [コメント]