DocRevive：文書テキスト復元のための統一パイプライン

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

評価のために著者らは、編集・意味・長さの類似度を統合した統一コンテキスト類似度メトリクス（UCSM）を提案している。さらに、正しいテキストが明らかな場合に起こりにくい逸脱を罰するための、コンテキスト予測可能性の測定を組み合わせる。

概要: 文書理解において、損傷している、遮蔽されている、あるいは不完全なテキストを復元するという課題は、重要でありながら未だ十分に探究されていない問題です。その後の文書理解タスクは、文書復元プロセスの恩恵を受けることができます。そこで本論文では、最先端の文字認識（OCR）、高度な画像解析、マスク付き言語モデリング、そして拡散ベースのモデルを統合した新しい統一パイプラインを提案し、視覚的な整合性を保ちながらテキストを復元・再構成します。劣化の多様な状況を模擬する合成データセットとして、30{,}078枚の劣化文書画像を作成し、復元タスクのベンチマークを確立しました。私たちのパイプラインはテキストを検出・認識し、遮蔽検出器によって劣化を特定し、意味的に整合した復元のためにインペインティング（穴埋め）モデルを用います。拡散ベースのモジュールは、フォント、サイズ、整列（アライメント）を一致させながら、テキストを自然に再統合します。復元品質を評価するために、統一コンテキスト類似度指標（UCSM）を提案します。これは、編集・意味・長さの類似性に加え、正しいテキストが文脈的に自明である場合に逸脱を罰する文脈的予測可能性の尺度を組み込みます。本研究は文書復元を前進させ、アーカイブ調査やデジタル保存に役立つと同時に、テキスト再構成の新たな標準を打ち立てます。OPRBデータセットとコードは、それぞれ
\href{https://huggingface.co/datasets/kpurkayastha/OPRB}{Hugging Face} および
\href{https://github.com/kunalpurkayastha/DocRevive}{Github} で利用可能です。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

DocRevive：文書テキスト復元のための統一パイプライン

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵