DocRevive:文書テキスト復元のための統一パイプライン

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 評価のために著者らは、編集・意味・長さの類似度を統合した統一コンテキスト類似度メトリクス(UCSM)を提案している。さらに、正しいテキストが明らかな場合に起こりにくい逸脱を罰するための、コンテキスト予測可能性の測定を組み合わせる。

概要: 文書理解において、損傷している、遮蔽されている、あるいは不完全なテキストを復元するという課題は、重要でありながら未だ十分に探究されていない問題です。その後の文書理解タスクは、文書復元プロセスの恩恵を受けることができます。そこで本論文では、最先端の文字認識(OCR)、高度な画像解析、マスク付き言語モデリング、そして拡散ベースのモデルを統合した新しい統一パイプラインを提案し、視覚的な整合性を保ちながらテキストを復元・再構成します。劣化の多様な状況を模擬する合成データセットとして、30{,}078枚の劣化文書画像を作成し、復元タスクのベンチマークを確立しました。私たちのパイプラインはテキストを検出・認識し、遮蔽検出器によって劣化を特定し、意味的に整合した復元のためにインペインティング(穴埋め)モデルを用います。拡散ベースのモジュールは、フォント、サイズ、整列(アライメント)を一致させながら、テキストを自然に再統合します。復元品質を評価するために、統一コンテキスト類似度指標(UCSM)を提案します。これは、編集・意味・長さの類似性に加え、正しいテキストが文脈的に自明である場合に逸脱を罰する文脈的予測可能性の尺度を組み込みます。本研究は文書復元を前進させ、アーカイブ調査やデジタル保存に役立つと同時に、テキスト再構成の新たな標準を打ち立てます。OPRBデータセットとコードは、それぞれ
\href{https://huggingface.co/datasets/kpurkayastha/OPRB}{Hugging Face} および
\href{https://github.com/kunalpurkayastha/DocRevive}{Github} で利用可能です。