GLM-OCR 技術レポート

arXiv cs.CL / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

GLM-OCR は実世界の文書理解のために設計された、効率的な9億パラメータのコンパクトなマルチモーダルモデルで、4億パラメータの CogViT ビジュアルエンコーダと5億パラメータの GLM 言語デコーダを組み合わせています。
決定的 OCR タスクにおける標準的な自己回帰デコードの非効率性に対処するため、GLM-OCR は複数トークンを1ステップで予測する Multi-Token Prediction (MTP) 機構を導入し、共有パラメータによってメモリオーバーヘッドを低く抑えつつデコードスループットを向上させます。
システムレベルでは、二段階のパイプラインを採用します。PP-DocLayout-V3 がまずレイアウト分析を行い、続いて領域レベル認識を並列に実施します。
公開ベンチマークおよび産業シナリオでの広範な評価は、文書解析、テキストおよび式の転写、表構造の復元、重要情報抽出において競争力のある、または最先端の性能を達成することを示しています。
そのコンパクトなアーキテクチャと構造化生成は、リソース制約下のエッジデプロイメントと大規模な本番システムの双方に適しています。

GLM-OCR は、実世界の文書理解を目的とした、効率的な9億パラメータのコンパクトなマルチモーダルモデルです。4億パラメータの CogViT ビジュアルエンコーダと5億パラメータの GLM 言語デコーダを組み合わせ、計算効率と認識性能の間で強力なバランスを実現します。決定的 OCR タスクにおける標準的な自己回帰デコードの非効率性に対処するため、GLM-OCR は複数トークンを1ステップで予測する Multi-Token Prediction (MTP) 機構を導入し、共有パラメータによってメモリオーバーヘッドを低く抑えつつデコードスループットを大幅に向上させます。システムレベルでは、二段階のパイプラインを採用しています。PP-DocLayout-V3 がまずレイアウト分析を行い、その後並列領域レベル認識を実施します。公開ベンチマークおよび産業シナリオでの広範な評価は、GLM-OCR が文書解析、テキストおよび式の転写、表構造の復元、重要情報抽出において競争力のある、または最先端の性能を達成することを示しています。そのコンパクトなアーキテクチャと構造化生成は、リソース制約下のエッジデプロイメントと大規模な本番システムの双方に適しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

日経XTECH

GLM-OCR 技術レポート

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer