概要: CLIP のような視覚言語モデル(VLM)は、視覚表現とテキスト表現を整合させることで、強力な外部分布(OOD)検出能力を示します。最近の CLIP に基づくテスト時適応手法は、外部 OOD ラベルを組み込むことで検出性能をさらに向上させています。 しかし、そのようなラベルは有限で固定されています。一方で、実際の OOD セマンティック空間は本質的にオープンエンドです。したがって、固定ラベルでは、テストストリームで遭遇する多様で進化する OOD セマンティクスを表現できません。この制約に対処するために、本研究では Test-time Textual Learning(TTL)を提案します。TTL は、外部 OOD ラベルに依存することなく、ラベルなしのテストストリームから動的に OOD テキスト意味論を学習する枠組みです。TTL は、擬似ラベル付けされたテストサンプルを用いて、出現する OOD 知識を捉えるように学習可能なプロンプトを更新します。擬似ラベルによって導入されるノイズを抑制するために、適応のための信頼できる OOD サンプルを選択しつつノイズを抑える、OOD 知識精製戦略を導入します。さらに TTL は、高品質なテキスト特徴を保存する OOD テキスト知識バンクを維持し、バッチ間で安定したスコア較正を提供します。9 つの OOD データセットを含む 2 つの標準ベンチマークに対する大規模な実験の結果、TTL は一貫して最先端の性能を達成することが示され、頑健なテスト時 OOD 検出のためのテキスト適応の価値が強調されました。コードは https://github.com/figec/TTL で公開しています。
TTL:事前学習済みのビジョン・ランゲージモデルによるOOD検出のためのテスト時テキスト学習
arXiv cs.CL / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、固定された外部OODラベルセットに依存せずに、事前学習済みのビジョン・ランゲージモデル(例:CLIP)でOOD検出を改善する枠組みとしてTest-time Textual Learning(TTL)を提案する。
- TTLはラベルなしのテストストリームからOODのテキスト意味を動的に学習し、疑似ラベル付けしたテストサンプルに基づいて学習可能なプロンプトを更新する。
- 疑似ラベルによる誤り(ノイズ)を抑えるため、OOD知識浄化(purification)戦略により、より信頼できるOODサンプルだけを適応に用い、信頼できないものを抑制する。
- さらにTTLは、高品質なテキスト特徴を保存する「OOD Textual Knowledge Bank」を用いて、バッチ間でのスコア校正をより安定させる。
- 2つのベンチマークで9つのOODデータセットに対して実験した結果、TTLが最先端性能を一貫して達成し、コードも公開されている。



