VLMモデルによる表抽出がいまだに難しいのはなぜ?

Reddit r/MachineLearning / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この投稿は、特に金融データの表を正確に抽出しながらPDFをMarkdownに変換する、信頼できるオープンソース手法を求めています。
  • 著者は、罫線のない(ボーダーレスな)表や、列数が約5〜6列を超える表が特に扱いにくいと報告しています。
  • Docling、Graphite-Docling、Markerなど複数のツールやパイプラインを試したものの、再現性のある「決定版」のオープンソース解が見つかっていません。
  • 現時点でうまく機能しているのはLandingAIのみですが、有料であるため代替手段を探しています。
  • 例となる画像も掲載されており、VLM系の抽出で複雑な表レイアウトをよりうまく扱えるオープンソースのツールやワークフローについてコミュニティの提案を求めています。
Why Is Table Extraction with VLM Models Still Challenging? [D]

みなさんこんにちは。PDFをMarkdownに変換するための良いアプローチを見つけるのに苦労しています(特に財務データの場合)。主な課題は、罫線のないテーブルや、5〜6列を超えるテーブルを扱うことです。docling、graphite-docling、marker などは試しましたが、しっかりしたオープンソースの解決策は見つかりませんでした。いまうまくいっているのは LandingAI だけですが、有料です。

オープンソースの良い代替案を知っている方はいますか?TIA!

サンプル:

https://preview.redd.it/tajjcvjt5jyg1.png?width=959&format=png&auto=webp&s=8d04c5e946ab361bfef08021f79d106ab62a07cd

https://preview.redd.it/lhpwnbty5jyg1.png?width=630&format=png&auto=webp&s=8dc0475a32b89ce7f8107f3940fd3eb6b0896a3a

提出者: /u/No_Stretch_5809
[リンク] [コメント]