RTPrune：DeepSeek-OCR推論を効率化する「二度読み」インスパイア型トークンプルーニング

arXiv cs.CV / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、DeepSeek-OCRの長文OCR推論コストを削減しつつ文字の忠実性を保つことを目的とした、新しい二段階トークンプルーニング手法「RTPrune」を提案している。
DeepSeek-OCRのデコード過程を分析し、モデルが最初に高ノルムのトークンへ注意を集中し、その後に残りへ注意を再配分するという独自の二段階の読み取り挙動を見出している。
RTPruneは第1段階でテキストや構造の重要情報を担う高ノルムの視覚トークンを優先して保持し、第2段階で残りトークンを最適輸送（optimal transport）に基づいてペアリング・統合し、特徴集約を効率化する。
トークンの類似度と文字密度に応じてプルーニング率を動的に調整し、OCRにおける効率と精度のトレードオフを改善する。
OmniDocBenchでの実験では最先端の性能が示され、DeepSeek-OCR-Largeに適用した場合に99.47%の精度と1.23×高速なprefillを、トークン保持率84.25%で達成したと報告されている。

要旨: DeepSeek-OCRは、視覚-テキスト圧縮を活用して長文テキスト処理のコストを削減し、推論を高速化します。しかし、視覚トークンは依然として冗長なテキスト情報や構造情報を含みやすいという課題があります。さらに、従来の視覚言語モデル（VLM）向けの現在のトークン枝刈り手法では、不適切な圧縮メカニズムのためにテキストの忠実性を保持できません。DeepSeek-OCRのデコーディング過程を分析したところ、明確な二段階のリーディング軌跡、すなわちモデルが最初に高いノルムを持つ多数のトークンを優先し、その後それ以外のトークンへ注意を再配分することが分かりました。この洞察に動機づけられ、DeepSeek-OCR向けに最適化した二段階のトークン枝刈り手法であるRTPruneを提案します。第1段階では、重要なテキスト情報と構造情報を捉える高ノルムの視覚トークンを優先します。第2段階では、残りのトークンをペアにして、最適輸送理論に基づく手法で統合し、効率的な特徴集約を実現します。さらに、OCRタスクに対して、トークンの類似度とテキスト密度に適応する動的な枝刈り比率を導入し、より良い効率-精度のトレードオフを可能にします。大規模な実験の結果、最先端の性能が示されました。具体的には、OmniDocBenchで99.47%の精度と1.23 $\times$ 速いprefillを達成し、DeepSeek-OCR-Largeに適用した際のトークン保持率は84.25%でした。