GLM-OCR 技術レポート

arXiv cs.CL / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • GLM-OCR は実世界の文書理解のために設計された、効率的な9億パラメータのコンパクトなマルチモーダルモデルで、4億パラメータの CogViT ビジュアルエンコーダと5億パラメータの GLM 言語デコーダを組み合わせています。
  • 決定的 OCR タスクにおける標準的な自己回帰デコードの非効率性に対処するため、GLM-OCR は複数トークンを1ステップで予測する Multi-Token Prediction (MTP) 機構を導入し、共有パラメータによってメモリオーバーヘッドを低く抑えつつデコードスループットを向上させます。
  • システムレベルでは、二段階のパイプラインを採用します。PP-DocLayout-V3 がまずレイアウト分析を行い、続いて領域レベル認識を並列に実施します。
  • 公開ベンチマークおよび産業シナリオでの広範な評価は、文書解析、テキストおよび式の転写、表構造の復元、重要情報抽出において競争力のある、または最先端の性能を達成することを示しています。
  • そのコンパクトなアーキテクチャと構造化生成は、リソース制約下のエッジデプロイメントと大規模な本番システムの双方に適しています。
GLM-OCR は、実世界の文書理解を目的とした、効率的な9億パラメータのコンパクトなマルチモーダルモデルです。4億パラメータの CogViT ビジュアルエンコーダと5億パラメータの GLM 言語デコーダを組み合わせ、計算効率と認識性能の間で強力なバランスを実現します。決定的 OCR タスクにおける標準的な自己回帰デコードの非効率性に対処するため、GLM-OCR は複数トークンを1ステップで予測する Multi-Token Prediction (MTP) 機構を導入し、共有パラメータによってメモリオーバーヘッドを低く抑えつつデコードスループットを大幅に向上させます。システムレベルでは、二段階のパイプラインを採用しています。PP-DocLayout-V3 がまずレイアウト分析を行い、その後並列領域レベル認識を実施します。公開ベンチマークおよび産業シナリオでの広範な評価は、GLM-OCR が文書解析、テキストおよび式の転写、表構造の復元、重要情報抽出において競争力のある、または最先端の性能を達成することを示しています。そのコンパクトなアーキテクチャと構造化生成は、リソース制約下のエッジデプロイメントと大規模な本番システムの双方に適しています。