AI Navigate

インサイト最新記事一覧 AI大全

ET-SAM：統合的なシーン文字検出とレイアウト解析のためのSAMにおける効率的なポイントプロンプト予測

arXiv cs.CV / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

ET-SAMは、Segment Anything Model（SAM）をベースにした統合的なシーン文字検出とレイアウト解析のための効率化フレームワークである。
従来の多数のピクセルレベル前景点プロンプトへの依存をやめ、軽量なポイントデコーダでワードヒートマップを生成して少数のプロンプトで推論を高速化する。
ピクセルレベルのテキスト分割に依存しないため、複数タイプ（マルチレベル、ワードレベルのみ、ラインレベルのみ）のアノテーションを統合して並列学習する戦略を提案している。
さらに、ポイントデコーダと階層マスクデコーダ双方に学習可能なタスクプロンプトを導入し、データセット間のアノテーション差異を緩和する。
実験では、既存SAMベース比で約3倍の推論加速を達成しつつ、HierTextで競争力のある性能を維持し、Total-Text/CTW1500/ICDAR15で平均11.0%のF-score向上を報告している。

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。