いま私は、最近のAI研究論文(主にarXivのPDF)からコンテンツを抽出するためのワークフローを構築しようとしています。読書速度、インデックス作成、ノート取りを速めたいからです。
問題は: これらの論文は「きれいなテキスト」文書ではないことです。たいてい次のような要素が含まれています:
- 密度の高い数式(多くの場合LaTeX中心)
- マルチカラムのレイアウト
- 複雑な表
- キャプション付きで埋め込まれた図・ダイアグラム
- 読み取り順序の混在
そのため、私にとって単なるOCRの精度だけでは不十分で、構造+数式+レイアウトの一貫性をとても重視しています。
私はいくつかのプロジェクトを試したり調べたりしてきました。たとえば:
FireRed-OCR
構造をより意識したドキュメント単位のOCRとして有望に見えます。複雑なレイアウトでもかなり良い結果が出ると人々が言っているのを見かけましたが、数式中心の重い論文に対してどれほど頑健なのかはまだよく分かっていません。
DeepSeek-OCR
面白い方向性です。特に、より広いDeepSeekのエコシステムがマルチモーダル理解を後押ししている点を考えると。どなたか、数式付きの学術PDFに対して具体的に使ったことがある方はいませんか? 実際にLaTeXの品質に近い出力を保持するのでしょうか、それとも「セマンティックな転記」に近いのでしょうか?
MonkeyOCR
これは軽量で比較的導入しやすいように見えたので注目しました。ただ、科学論文に対してどの程度うまくいくのか、またより一般的なドキュメントOCRと比べてどうなのかが分かりません。
自分でも小さなベンチマークを回してみようと思っています。レイアウトが異なる最近のarXiv論文を約20本選び、それぞれのモデルがプレーンテキスト、数式、表をどれだけうまく抽出できるかを比較します。同時に、精度と、必要となる後処理の手間の両方を測定するつもりです。
下に挙げたモデルを皆さんに見てもらって、本当にテストする価値があるのはどれか教えてもらえませんか?
[link] [comments]




