「良いOCR」だけでは不十分:検索拡張生成(RAG)向けにOCRの頑健性をベンチマークする

arXiv cs.CV / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、産業用途の検索拡張生成(RAG)で実用条件を反映するには、文字単位のOCRベンチマーク(CER/WER)が不十分だと指摘している。
  • InduOCRBenchとして、産業RAG向けに設計されたOCRベンチマークを提案し、極端なレイアウト、高解像度ページ、複雑/ウォーターマーク背景、歴史文書の非標準の読み順、装飾された文字、表や数式を含む文書など計11種類を扱う。
  • 最近のSOTA OCRモデルを、制御された「OCR→RAG」パイプラインで評価すると、従来のOCRスコアが高くても現実的な文書で下流の性能が大きく低下することが示される。
  • OCR精度が高くても、構造的・意味的な誤りが検索の失敗や生成側の破綻につながり得るため、RAGの結果は必ずしも良くならないことが明らかになり、その不一致は文書カテゴリに依存する。
  • ベンチマークはGitHubで公開され、RAGに即したOCRの頑健性評価を支援する。

要旨: 産業向けのRetrieval-Augmented Generation(RAG)システムは、視覚文書をテキストへ変換するために光学文字認識(OCR)に依存しています。既存のOCRベンチマークは文字レベルの指標に基づいており、現実の条件下での下流RAGの有効性を十分に測れていません。そこで本研究では、産業向けRAGシステムのためのOCRベンチマークを導入します。このベンチマークは、極端なレイアウト、高解像度のページ、複雑またはウォーターマーク付きの背景、標準でない読順を持つ歴史資料、視覚的に装飾されたテキスト、さらに表や数式を含む文書といった11種類の困難な文書タイプをカバーします。制御された「OCR-first」型RAGパイプラインのもとで、近年のSOTA OCRモデルを評価すると、従来のベンチマークで高いスコアが得られていても、現実的な産業文書に対しては明確な性能劣化が見られます。高いOCR精度が必ずしも下流RAGの強い性能につながるわけではないことが分かります。構造的・意味的な誤りは、WER/CERが低い場合でも、取得(retrieval)の失敗を大きく引き起こし得るのです。さらに分析すると、この不一致はカテゴリに依存しており、取得側と下流生成側の双方の失敗を通じて生じ、代表的なOCR-firstパイプラインの選択肢にわたって安定して持続することが示されます。このベンチマークは https://github.com/Qihoo360/InduOCRBench で公開されています。