要旨: 長く、多言語にわたるスキャン済みの金融文書からの構造化情報抽出は、産業分野のKYCおよびコンプライアンスのワークフローにおける中核的な要件です。これらの文書は通常、機械可読ではなく、ノイズが多く、視覚的にも多様です。さらに、タスクに関連する情報はまばらにしか含まれていないのに、文書全体は数十ページに及ぶことが一般的です。近年の視覚言語モデルはベンチマークで高い性能を示していますが、それらを金融レポート全文に対してエンドツーエンドで直接適用すると、現実の条件下では信頼性の高い抽出につながらないことがしばしばあります。本研究では、画像前処理、多言語OCR、ハイブリッドなページ単位のリトリーバル、そしてコンパクトなVLM(VLMベース)の構造化抽出を統合した多段抽出フレームワークを提案します。この設計は、ページの位置特定とマルチモーダルな推論を分離することで、複雑な多ページ文書からのより正確な抽出を可能にします。本フレームワークを、生産用KYC文書120件(約3000枚の多言語スキャンページ)で評価しました。複数のOCR-VLMの組み合わせにおいて、提案パイプラインは一貫してPDFからVLMへ直接行うベースラインを上回り、フィールド単位の精度を最大31.9パーセントポイント改善しました。最良の構成は、PaddleOCRとMiniCPM2.6の組み合わせで、精度は87.27パーセントです。アブレーション研究の結果、ページ単位のリトリーバルが性能改善における支配的な要因であり、とりわけ複雑な金融明細書や英語以外の文書でその傾向が顕著であることが示されました。
長いスキャン済み金融文書向けのマルチステージ抽出パイプライン:産業KYCワークフローにおける実証研究
arXiv cs.CV / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本研究は、長くノイズの多い多言語のスキャン済み金融文書からの構造化情報抽出を、産業向けKYC/コンプライアンスの実運用で扱う課題として取り上げており、エンドツーエンドのVLM適用が現実条件下で不安定になり得る点を問題視しています。
- 提案手法は、画像前処理、多言語OCR、ハイブリッドなページ単位のリトリーバル、コンパクトなVLMによる構造化抽出を組み合わせ、ページの位置特定とマルチモーダル推論を明確に分離する設計です。
- 実験では、生産KYC文書120件(約3,000ページ)を評価し、複数のOCR–VLMの組み合わせにおいて、直接PDFからVLMへ行うベースラインを一貫して上回り、フィールド精度が最大31.9ポイント改善したことを示しています。
- 最良構成はPaddleOCRとMiniCPM2.6で87.27%の精度を達成し、アブレーションでは特に複雑な財務諸表や非英語文書で、ページ単位のリトリーバルが性能向上の支配的要因であることが示されています。



