AI Navigate

Qianfan-OCR: 文書知能の統一エンドツーエンドモデル

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • Qianfan-OCRは、文書解析、レイアウト分析、文書理解を1つのアーキテクチャに統合した、40億パラメータのエンドツーエンド視覚言語モデルです。
  • 画像からMarkdown形式への直接出力をサポートし、表の抽出、チャート理解、文書QA、重要情報抽出などのプロンプト駆動タスクをサポートします。
  • Layout-as-Thoughtを導入します。これはthinkトークンによってトリガーされる任意の思考フェーズで、最終出力前に構造化されたレイアウト表現を生成し、レイアウトの根拠付けを回復します。
  • OmniDocBench v1.5およびOlmOCR Benchのエンドツーエンドモデルの中で第1位を獲得し、OCRBench、CCOCR、DocVQA、ChartQAでも競争力のある結果を示しており、公開データの重要情報抽出ベンチマークでトップ平均を達成しています。
  • このモデルは百度AIクラウドのQianfanプラットフォームで公開されています。

要約: 私たちは Qianfan-OCR を提示します。40億パラメータのエンドツーエンドのビジョン-言語モデルで、文書解析、レイアウト分析、文書理解を単一のアーキテクチャ内で統合します。直接画像をマークダウンへ変換し、表の抽出、チャート理解、文書QA、重要情報抽出を含む、多様なプロンプト駆動型タスクをサポートします。エンドツーエンドOCRにおける明示的なレイアウト分析の欠落に対処するため、Layout-as-Thought を提案します。これは特殊な think トークンによってトリガーされる任意の思考フェーズで、最終出力を生成する前に、境界ボックス、要素タイプ、読取順序といった構造化されたレイアウト表現を生成し、レイアウトのグラウンディング機能を回復しつつ、複雑なレイアウトでの正確さを向上させます。Qianfan-OCR は OmniDocBench v1.5 (93.12) および OlmOCR Bench (79.8) でエンドツーエンドモデルの中で1位にランクし、OCRBench、CCOCR、DocVQA、ChartQA で、同規模の一般的な VLM に対して競争力のある結果を達成し、公開鍵情報抽出ベンチマークで最高の平均スコアを達成し、Gemini-3.1-Pro、Seed-2.0、Qwen3-VL-235B を上回ります。 このモデルは Baidu AI Cloud の Qianfan プラットフォームを通じて公開アクセス可能です。