| みなさんこんにちは。PDFをMarkdownに変換するための良いアプローチを見つけるのに苦労しています(特に財務データの場合)。主な課題は、罫線のないテーブルや、5〜6列を超えるテーブルを扱うことです。docling、graphite-docling、marker などは試しましたが、しっかりしたオープンソースの解決策は見つかりませんでした。いまうまくいっているのは LandingAI だけですが、有料です。 オープンソースの良い代替案を知っている方はいますか?TIA! サンプル: [リンク] [コメント] |
VLMモデルによる表抽出がいまだに難しいのはなぜ?
Reddit r/MachineLearning / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- この投稿は、特に金融データの表を正確に抽出しながらPDFをMarkdownに変換する、信頼できるオープンソース手法を求めています。
- 著者は、罫線のない(ボーダーレスな)表や、列数が約5〜6列を超える表が特に扱いにくいと報告しています。
- Docling、Graphite-Docling、Markerなど複数のツールやパイプラインを試したものの、再現性のある「決定版」のオープンソース解が見つかっていません。
- 現時点でうまく機能しているのはLandingAIのみですが、有料であるため代替手段を探しています。
- 例となる画像も掲載されており、VLM系の抽出で複雑な表レイアウトをよりうまく扱えるオープンソースのツールやワークフローについてコミュニティの提案を求めています。




