Activation Matters: 視覚言語モデルにおけるOOD検出のためのテスト時アクティベート・ネガティブラベル

arXiv cs.LG / 2026/3/27

💬 オピニオン

要点

  • 本論文は、固定された遠いラベルを用いるのではなく、アクティベーションレベルに基づいて「ネガティブ」ラベルを採掘する、訓練不要のOOD検出手法TANL(Test-time Activated Negative Labels)を提案する。

Abstract

分布外(OOD)検出は、分布内(ID)から逸脱したサンプルを同定することを目的とする。よく知られた一つの処理パイプラインでは、IDクラスから遠い場所に負例ラベルを導入し、それらのラベルまでの距離に基づいてOODを検出することで対応する。しかし、このような負例ラベルはOODサンプルに対して十分に活性化されない可能性があり、OODの特徴を捉えられないことがある。これに対処するため、 \underline{T}est-time \underline{A}ctivated \underline{N}egative \underline{L}abels(TANL)を提案する。これは、コーパスデータセット全体で活性化レベルを動的に評価し、テスト中に高い活性化応答を示す候補ラベルをマイニングすることで実現する。具体的には、TANLは高い信頼度を持つテスト画像をオンラインで特定し、それらの割り当て確率をコーパス上で蓄積して、ラベル活性化の指標を構築する。このような指標は、過去のテストサンプルを活用してテスト分布へと適応的に整合するため、分布適応型の活性化負例ラベルの選択が可能になる。さらに、現在のテスティングバッチ内で活性化情報を掘り下げることで、よりきめ細かなバッチ適応型の変種を導入する。ラベル活性化の知識を最大限に活用するために、より強い活性化を持つ負例ラベルを重視する活性化に着目したスコア関数を提案し、性能を向上させるとともに、ラベル数に対する頑健性も高める。提案するTANLは学習不要で、テスト効率が高く、理論的な裏付けに基づいている。多様なバックボーンおよび幅広いタスク設定での実験により、その有効性が検証される。特に大規模ImageNetベンチマークでは、TANLはFPR95を17.5\%から9.8\%へ大幅に低減する。コードは\href{https://github.com/YBZh/OpenOOD-VLM}{YBZh/OpenOOD-VLM}で公開されている。