Tarot-SAM3:あらゆる言及表現に対応する、トレーニング不要のSAM3によるセグメンテーション

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、自然言語クエリで記述された画像領域をセグメントするReferring Expression Segmentation(RES)を扱い、大規模なラベル付きデータに依存し、暗黙的または長い表現の扱いが難しい既存手法の限界を指摘している。
  • SAM3のプロンプト可能な概念セグメンテーションにおける頑健性を土台に、著者らはトレーニング不要の手法で、あらゆる言及表現から高精度にセグメンテーションを可能にするTarot-SAM3を提案する。
  • Tarot-SAM3はExpression Reasoning Interpreter(ERI)を用いて、推論支援付きの言い換えと多様な(ヘテロジニアスな)プロンプトを生成し、それによってSAM3のための多様なクエリに対する構造化されたパース(解釈)を改善する。
  • さらにMask Self-Refining(MSR)を適用し、最適なマスクの種類を選択するとともに、DINOv3由来の特徴関係を用いて過分割・過小分割を補正することで、セグメンテーションを洗練(精緻化)する。
  • 実験およびアブレーションにより、明示的・暗黙的・オープンワールドのRESベンチマーク全体で強力な結果が報告され、各段階が全体性能に寄与していることが検証されている。