ET-SAM:統合的なシーン文字検出とレイアウト解析のためのSAMにおける効率的なポイントプロンプト予測
arXiv cs.CV / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ET-SAMは、Segment Anything Model(SAM)をベースにした統合的なシーン文字検出とレイアウト解析のための効率化フレームワークである。
- 従来の多数のピクセルレベル前景点プロンプトへの依存をやめ、軽量なポイントデコーダでワードヒートマップを生成して少数のプロンプトで推論を高速化する。
- ピクセルレベルのテキスト分割に依存しないため、複数タイプ(マルチレベル、ワードレベルのみ、ラインレベルのみ)のアノテーションを統合して並列学習する戦略を提案している。
- さらに、ポイントデコーダと階層マスクデコーダ双方に学習可能なタスクプロンプトを導入し、データセット間のアノテーション差異を緩和する。
- 実験では、既存SAMベース比で約3倍の推論加速を達成しつつ、HierTextで競争力のある性能を維持し、Total-Text/CTW1500/ICDAR15で平均11.0%のF-score向上を報告している。



