TexOCR:コンパイル可能なページからLaTeX再構成を目指すドキュメントOCRモデルの進展

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、単なるプレーンテキストやMarkdownの抽出ではなく、科学系PDFからコンパイル可能なLaTeXへ再構成することに焦点を当てたドキュメントOCR手法TexOCRを提案します。
  • TexOCR-Benchとして、転記の正確性、構造の忠実性、そしてLaTeXのエンドツーエンドでのコンパイル可能性を多面的に評価するベンチマークを提供します。
  • TexOCR-Trainという大規模学習コーパスも導入し、2BパラメータのTexOCRモデルを、教師あり微調整(SFT)と強化学習(RL)で学習します。
  • RLではLaTeXのユニットテストに基づく検証可能な報酬を用いて、コンパイル可能性と参照整合性を直接的に強制し、SFT単独よりも改善が得られます。
  • 21のフロンティアモデルに対する実験では、多くの既存システムがセクション構造の一貫性、フロート配置、ラベル参照リンクの妥当性といった重要なドキュメント不変条件を破り、下流での信頼性を損なうことが示されています。