Qianfan-OCR — 4Bパラメータのエンドツーエンド文書AIモデル: OmniDocBench v1.5 で 93.12 点、192 言語対応、vLLM を搭載した単一の A100 上で動作

Reddit r/LocalLLaMA / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Qianfan-OCR は、OCR、レイアウト分析、表抽出、式認識、チャート理解、主要情報抽出を単一の前方伝播で処理する、4Bパラメータのエンドツーエンド文書理解ビジョン-ランゲージモデルである。
Layout-as-Thought 機能を導入し、オプションの <think> 推論フェーズを有効にすることで、境界ボックス、要素タイプ、読み順を改善し、速度と精度のトレードオフを取る。
ベンチマーク結果は、OmniDocBench v1.5 が 93.12 点（エンドツーエンドモデルの中でトップ）、OCRBench が 880、KIE 平均が 87.9 で、いくつかの大規模モデルを凌駕している。
実用展開の詳細には、デフォルトで vLLM 互換性を備え、W8A8 量子化を用いた単一の A100 における推論が 1.024 ページ/秒、192 言語対応、4 段階にわたる学習を 1,024 基の Kunlun P800 チップ上で、総計 2.85兆トークンで実施。

私たちは最近、オープンソース化した Qianfan-OCR、文書理解のための4Bパラメータの視覚言語モデルです。

通常の検出 → 認識 → LLM パイプラインの代わりに、このモデルはOCR、レイアウト解析、表の抽出、式の認識、図表の理解、そして重要情報の抽出を — 全て1回のフォワードパスで処理します。

コアアイデア: レイアウトを思考として扱う

このモデルは任意で <think> 推論フェーズに入り、境界ボックス、要素タイプ、読み順について推論します。これを、ドキュメントレイアウト向けの Chain-of-Thought のようなものと考えてください。追加の精度が必要か、速度を優先したいかに応じてオン/オフできます。

ベンチマーク:

実用的な情報:

リンク:

アーキテクチャ、トレーニング、デプロイメントに関する質問には喜んでお答えします。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

Azure OpenAI Service ドキュメント

Reddit r/artificial

Dev.to

Reddit r/MachineLearning

Dev.to