私たちは最近、オープンソース化した Qianfan-OCR、文書理解のための4Bパラメータの視覚言語モデルです。
通常の検出 → 認識 → LLM パイプラインの代わりに、このモデルはOCR、レイアウト解析、表の抽出、式の認識、図表の理解、そして重要情報の抽出を — 全て1回のフォワードパスで処理します。
コアアイデア: レイアウトを思考として扱う
このモデルは任意で <think> 推論フェーズに入り、境界ボックス、要素タイプ、読み順について推論します。これを、ドキュメントレイアウト向けの Chain-of-Thought のようなものと考えてください。追加の精度が必要か、速度を優先したいかに応じてオン/オフできます。
ベンチマーク:
| Benchmark | Qianfan-OCR (4B) | 備考 |
|---|---|---|
| OmniDocBench v1.5 | 93.12 | #1 among end-to-end models |
| OCRBench | 880 | |
| KIE (avg) | 87.9 | Gemini-3.1-Pro および Qwen3-VL-235B を上回る |
実用的な情報:
- 単一の A100 推論: 1.024 ページ/秒(W8A8 量子化)
- 192 言語(ラテン文字、キリル文字、アラビア文字、南アジア・東南アジアの言語、CJK)
- vLLM とそのまま連携して動作します
- 4 段階にわたり 2.85T トークンを用いて、1,024個の Kunlun P800 チップ上で訓練
リンク:
- Model: https://huggingface.co/baidu/Qianfan-OCR
- Tech report: https://arxiv.org/abs/2603.13398
- Code: https://github.com/baidubce/Qianfan-VL
- HF Daily Paper: https://huggingface.co/papers/2603.13398
アーキテクチャ、トレーニング、デプロイメントに関する質問には喜んでお答えします。
[リンク] [コメント]