並列トークン予測による効率的な文書解析

arXiv cs.CL / 2026/3/17

💬 オピニオンModels & Research

共有:

要点

本論文は Parallel-Token Prediction（PTP）を提案し、ビジョン-言語モデルが複数の未来トークンを並列に生成できるようにすることで、文書パースにおけるデコーディングのボトルネックに対処する。
これは、入力列に学習可能なトークンを挿入し、並列デコーディングを訓練する目的を設計することによって実現される。
VLM（ビジョン-ランゲージモデル）向けに、大規模で高品質な文書解析データを効率的に生成する包括的なデータ生成パイプラインを開発した。
OmniDocBench と olmOCR-bench 上の実験は、デコード速度を1.6倍〜2.2倍に向上させ、誤出力の低減と高い一般化能力を示した。

要約: 文書解析は、基礎的でありながら重要なビジョンタスクとして、ビジョン言語モデル（VLMs）によって革命的に変革されつつあります。しかし、VLMs に固有の自己回帰（AR）デコーディングが重大なボトルネックを生み出し、文書解析の速度を著しく制限しています。本論文では、プラグイン可能でモデルに依存しない、単純でありながら有効な手法である Parallel-Token Prediction（PTP）を提案します。これにより、VLMs が複数の将来トークンを並列に生成できるようにし、サンプル効率を改善します。具体的には、入力列にいくつかの学習可能なトークンを挿入し、文書解析のための並列デコード機能をモデルに備えるための対応する訓練目的を設計します。さらに、効果的なトレーニングを支援するために、VLMs のための大規模で高品質な文書解析トレーニングデータを効率的に生成する包括的なデータ生成パイプラインを開発しました。OmniDocBench および olmOCR-bench における広範な実験は、我々の手法がデコード速度を大幅に向上させるだけでなく（1.6倍〜2.2倍）、モデルのハルシネーションを低減し、強い一般化能力を示すことを示しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

並列トークン予測による効率的な文書解析

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer