並列トークン予測による効率的な文書解析

arXiv cs.CL / 2026/3/17

💬 オピニオンModels & Research

要点

  • 本論文は Parallel-Token Prediction(PTP)を提案し、ビジョン-言語モデルが複数の未来トークンを並列に生成できるようにすることで、文書パースにおけるデコーディングのボトルネックに対処する。
  • これは、入力列に学習可能なトークンを挿入し、並列デコーディングを訓練する目的を設計することによって実現される。
  • VLM(ビジョン-ランゲージモデル)向けに、大規模で高品質な文書解析データを効率的に生成する包括的なデータ生成パイプラインを開発した。
  • OmniDocBench と olmOCR-bench 上の実験は、デコード速度を1.6倍〜2.2倍に向上させ、誤出力の低減と高い一般化能力を示した。

要約: 文書解析は、基礎的でありながら重要なビジョンタスクとして、ビジョン言語モデル(VLMs)によって革命的に変革されつつあります。しかし、VLMs に固有の自己回帰(AR)デコーディングが重大なボトルネックを生み出し、文書解析の速度を著しく制限しています。本論文では、プラグイン可能でモデルに依存しない、単純でありながら有効な手法である Parallel-Token Prediction(PTP)を提案します。これにより、VLMs が複数の将来トークンを並列に生成できるようにし、サンプル効率を改善します。具体的には、入力列にいくつかの学習可能なトークンを挿入し、文書解析のための並列デコード機能をモデルに備えるための対応する訓練目的を設計します。さらに、効果的なトレーニングを支援するために、VLMs のための大規模で高品質な文書解析トレーニングデータを効率的に生成する包括的なデータ生成パイプラインを開発しました。OmniDocBench および olmOCR-bench における広範な実験は、我々の手法がデコード速度を大幅に向上させるだけでなく(1.6倍〜2.2倍)、モデルのハルシネーションを低減し、強い一般化能力を示すことを示しています。