概要:個別化された生成や画像編集といったアイデンティティに焦点を当てたタスクを評価する際、既存の視覚エンコーダは物体のアイデンティティを背景文脈と絡めてしまい、信頼性の低い表現や指標につながります。私たちは、この脆弱性に対処するための最初の原理に基づく枠組みを導入します。それが、Near-identity(NearID)ディストラクタです。ここでは、意味的に類似しているが別個のインスタンスを、参照画像とまったく同一の背景上に配置することで、文脈に依存した抜け道(ショートカット)を排除し、識別に働く唯一の弁別信号としてアイデンティティを分離します。この原理に基づき、NearIDデータセット(19Kのアイデンティティ、316Kのマッチした文脈ディストラクタ)と、厳密なマージンベースの評価プロトコルを提示します。この設定では、事前学習済みのエンコーダは性能が大きく低下し、厳密なマージンベースのアイデンティティ識別指標であるSample Success Rate(SSR)が30.7%まで低くなり、さらに真のクロスビュー一致よりもディストラクタを上位にランキングすることがしばしば起こります。私たちはこの問題に対し、凍結したバックボーン上でアイデンティティを意識した表現を学習することで解決します。具体的には、階層性を強制する二段階のコントラスト学習目的を用い、同一アイデンティティ > NearIDディストラクタ > ランダムなネガティブ、という順序の階層を守ります。これによりSSRは99.2%まで改善し、パート単位の識別性能は28.0%向上し、個別化のための人間整合ベンチマークであるDreamBench++において、人間の判断との整合性がより強く得られます。プロジェクトページ:https://gorluxor.github.io/NearID/
NearID: ニア・アイデンティティ・ディストラクタによるアイデンティティ表現学習
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的な視覚エンコーダがしばしば物体のアイデンティティと背景文脈を絡めて表現してしまい、パーソナライズされた生成や画像編集のようなアイデンティティ重視のタスクに対する評価が信頼できなくなると主張する。
- そこで、セマンティックに類似しているが異なるインスタンスをまったく同一の背景に配置するNear-identity(NearID)ディストラクタの枠組みを提案し、文脈によるショートカット学習を防いでアイデンティティを分離する。
- 著者らは、NearIDデータセット(19Kのアイデンティティと316Kのマッチ済み文脈ディストラクタ)と、ビューをまたぐアイデンティティ識別をより適切に測定するための厳格なマージンベースのSSR評価プロトコルを公開する。
- 実験の結果、市販の事前学習済みエンコーダでは性能が低くなり得ることが示され(SSRが30.7%まで低い例もある)、ディストラクタが真のマッチより上位にランクされることが多い。これが手法の動機となる。
- 凍結したバックボーンに対して2段階のコントラスト学習目的を用いることで、SSRを99.2%まで引き上げ、パート(部位)レベルでの識別を28%改善し、また人手による整合に基づくDreamBench++ベンチマークでもより良い整合を達成する。




