ET-SAM: Efficient Point Prompt Prediction in SAM for Unified Scene Text Detection and Layout Analysis

arXiv cs.CV / 3/27/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • ET-SAMは、Segment Anything Model(SAM)をベースにした統合的なシーン文字検出とレイアウト解析のための効率化フレームワークである。
  • 従来の多数のピクセルレベル前景点プロンプトへの依存をやめ、軽量なポイントデコーダでワードヒートマップを生成して少数のプロンプトで推論を高速化する。
  • ピクセルレベルのテキスト分割に依存しないため、複数タイプ(マルチレベル、ワードレベルのみ、ラインレベルのみ)のアノテーションを統合して並列学習する戦略を提案している。
  • さらに、ポイントデコーダと階層マスクデコーダ双方に学習可能なタスクプロンプトを導入し、データセット間のアノテーション差異を緩和する。
  • 実験では、既存SAMベース比で約3倍の推論加速を達成しつつ、HierTextで競争力のある性能を維持し、Total-Text/CTW1500/ICDAR15で平均11.0%のF-score向上を報告している。

Abstract

Previous works based on Segment Anything Model (SAM) have achieved promising performance in unified scene text detection and layout analysis. However, the typical reliance on pixel-level text segmentation for sampling thousands of foreground points as prompts leads to unsatisfied inference latency and limited data utilization. To address above issues, we propose ET-SAM, an Efficient framework with two decoders for unified scene Text detection and layout analysis based on SAM. Technically, we customize a lightweight point decoder that produces word heatmaps for achieving a few foreground points, thereby eliminating excessive point prompts and accelerating inference. Without the dependence on pixel-level segmentation, we further design a joint training strategy to leverage existing data with heterogeneous text-level annotations. Specifically, the datasets with multi-level, word-level only, and line-level only annotations are combined in parallel as a unified training set. For these datasets, we introduce three corresponding sets of learnable task prompts in both the point decoder and hierarchical mask decoder to mitigate discrepancies across datasets.Extensive experiments demonstrate that, compared to the previous SAM-based architecture, ET-SAM achieves about 3\times inference acceleration while obtaining competitive performance on HierText, and improves an average of 11.0% F-score on Total-Text, CTW1500, and ICDAR15.