TALENT:Referring Image Segmentation における対象認識型の効率的チューニング
arXiv cs.CV / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 画像に対して自然言語で指定した対象(referring expression)だけをセグメントする referring image segmentation (RIS) における、PET(parameter-efficient tuning)で起きる「非ターゲット活性化(NTA)」問題を分析・定量化しています。
- 提案手法 TALENT は、テキストで参照された特徴を効率的に集約する Rectified Cost Aggregator (RCA) と、NTA を抑えてターゲットの活性を正しく校正する Target-aware Learning Mechanism (TLM) を組み合わせます。
- TLM では、文レベルのテキスト特徴を用いて文脈的な一貫性を学習する contextual pairwise consistency learning と、ターゲット中心の対照学習で別インスタンスへの紐付けを抑制する target-centric contrastive learning を同時に行います。
- 実験では TALENT が既存手法を複数の指標で上回り、例として G-Ref val で 2.5% の mIoU 向上が報告されています。
- コードは GitHub で公開予定で、RIS の PET 適用における性能改善のための実装面でも利用可能になる見込みです。




