iDocV2:自己教師あり学習とオープンセット検出を活用した歴史文書におけるパターン検出の改善

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、より良いエンコーダ(iDoc)に自己教師あり学習とオープンセット検出を組み合わせた、歴史文書向けパターン検出モデル iDocV2 を提案しています。
  • 既存の最先端手法が抱える課題(精度、特に小さな非正方形クエリでの低さ)と、ランタイム(DocExplore データセットで最大約7秒かかること)を改善することが狙いです。
  • iDocV2 はパターン検出と文書検索の両方で競争力のある性能を示し、検索速度は約10倍に改善すると報告されています。
  • 従来の課題だった小さな非正方形クエリについて、新たに精度0.612のSOTA(最高水準)を達成したとされています。
  • 前バージョンとの差分として、誤検出を減らすためにノンマキシマムサプレッションを活用しています。

Abstract

デジタル書籍の間もなく始まる大規模化を考えると、グラフィカルなパターンによってコレクションを検索できるようにすることが重要になってきています。歴史的文書における現在の文書検索およびパターン検出の戦略は、なお改善の余地があります。最先端の戦略は、パターン検出において全体の精度 0.494 を達成している一方で、小さな非正方形クエリに対する精度は 0.427 に留まっています。さらに、処理時間が過大であり、SOTA モデルが用いる密度ベースの戦略のため DocExplore データセットでの検索に最大 7 秒を要します。そこで本研究では、より優れたエンコーダ(iDoc)に基づき、自己教師ありの戦略で学習させた新しいモデルと、検索を加速するためのオープンセット検出器を提案します。本モデルは、最先端のパターン検出および文書検索に匹敵する結果を達成し、速度を 10 倍向上させます。さらに、本モデルは小さな非正方形クエリにおいて新しい SOTA 性能に到達し、新たな精度 0.612 を実現します。従来版とは異なり、本手法では誤検出を減らすために非最大抑制を活用します。