要約: 私たちは Qianfan-OCR を提示します。40億パラメータのエンドツーエンドのビジョン-言語モデルで、文書解析、レイアウト分析、文書理解を単一のアーキテクチャ内で統合します。直接画像をマークダウンへ変換し、表の抽出、チャート理解、文書QA、重要情報抽出を含む、多様なプロンプト駆動型タスクをサポートします。エンドツーエンドOCRにおける明示的なレイアウト分析の欠落に対処するため、Layout-as-Thought を提案します。これは特殊な think トークンによってトリガーされる任意の思考フェーズで、最終出力を生成する前に、境界ボックス、要素タイプ、読取順序といった構造化されたレイアウト表現を生成し、レイアウトのグラウンディング機能を回復しつつ、複雑なレイアウトでの正確さを向上させます。Qianfan-OCR は OmniDocBench v1.5 (93.12) および OlmOCR Bench (79.8) でエンドツーエンドモデルの中で1位にランクし、OCRBench、CCOCR、DocVQA、ChartQA で、同規模の一般的な VLM に対して競争力のある結果を達成し、公開鍵情報抽出ベンチマークで最高の平均スコアを達成し、Gemini-3.1-Pro、Seed-2.0、Qwen3-VL-235B を上回ります。 このモデルは Baidu AI Cloud の Qianfan プラットフォームを通じて公開アクセス可能です。
Qianfan-OCR: 文書知能の統一エンドツーエンドモデル
arXiv cs.CV / 2026/3/17
📰 ニュースModels & Research
要点
- Qianfan-OCRは、文書解析、レイアウト分析、文書理解を1つのアーキテクチャに統合した、40億パラメータのエンドツーエンド視覚言語モデルです。
- 画像からMarkdown形式への直接出力をサポートし、表の抽出、チャート理解、文書QA、重要情報抽出などのプロンプト駆動タスクをサポートします。
- Layout-as-Thoughtを導入します。これはthinkトークンによってトリガーされる任意の思考フェーズで、最終出力前に構造化されたレイアウト表現を生成し、レイアウトの根拠付けを回復します。
- OmniDocBench v1.5およびOlmOCR Benchのエンドツーエンドモデルの中で第1位を獲得し、OCRBench、CCOCR、DocVQA、ChartQAでも競争力のある結果を示しており、公開データの重要情報抽出ベンチマークでトップ平均を達成しています。
- このモデルは百度AIクラウドのQianfanプラットフォームで公開されています。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning