TALENT：Referring Image Segmentation における対象認識型の効率的チューニング

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

画像に対して自然言語で指定した対象（referring expression）だけをセグメントする referring image segmentation (RIS) における、PET（parameter-efficient tuning）で起きる「非ターゲット活性化（NTA）」問題を分析・定量化しています。
提案手法 TALENT は、テキストで参照された特徴を効率的に集約する Rectified Cost Aggregator (RCA) と、NTA を抑えてターゲットの活性を正しく校正する Target-aware Learning Mechanism (TLM) を組み合わせます。
TLM では、文レベルのテキスト特徴を用いて文脈的な一貫性を学習する contextual pairwise consistency learning と、ターゲット中心の対照学習で別インスタンスへの紐付けを抑制する target-centric contrastive learning を同時に行います。
実験では TALENT が既存手法を複数の指標で上回り、例として G-Ref val で 2.5% の mIoU 向上が報告されています。
コードは GitHub で公開予定で、RIS の PET 適用における性能改善のための実装面でも利用可能になる見込みです。

Abstract

参照画像セグメンテーションは、自然なテキスト表現に基づいて特定のターゲットを分割することを目指します。近年、パラメータ効率チューニング（PET）が有望なパラダイムとして注目されています。しかし、既存のPETベース手法はしばしば、視覚的特徴がテキストで参照されたターゲットのインスタンスを強調するのではなく、同一カテゴリに属するものの互いに関連の薄い（無関係な）物体を活性化してしまう、という問題に悩まされます。本研究ではこの問題を分析し、定量化し、それを`非ターゲット活性化'（NTA）問題と名付けます。これに対処するために、PETベースRIS（Reference Image Segmentation）向けのターゲット認識効率チューニングを用いる新しい枠組みTALENTを提案します。具体的には、まず、テキスト参照特徴を効率的に集約するための整流コスト集約器（Rectified Cost Aggregator, RCA）を提案します。次に、`NTA'を正確なターゲット活性化に校正するために、ターゲット認識学習メカニズム（Target-aware Learning Mechanism, TLM）を採用します。これには、文脈に基づくペアワイズ整合性学習と、ターゲット中心のコントラスト学習が含まれます。前者は、文（センテンス）レベルのテキスト特徴を用いて参照対象の全体的な理解を実現し、テキスト参照の親和性マップを構築して、視覚特徴の意味的な関連付けを最適化します。後者はさらに、他の無関係なものとの関連付けを抑制しつつ、固有のインスタンスを発見するためにターゲットの局在化を強化します。これら2つの目的は相互に連携して作用し、`NTA'に効果的に対処します。大規模な評価により、TALENTが、さまざまな指標において既存手法を上回ることを示します（例：G-Refのvalセットで2.5 ext{ }mIoUの向上）。コードは以下で公開予定です：https://github.com/Kimsure/TALENT。