AI Navigate

T-QPM: オープンワールドにおける視覚-言語モデルの時間的分布外検出とドメイン一般化を可能にする

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は Temporal Quadruple-Pattern Matching(T-QPM)を提案し、視覚-言語モデル向けのデュアルパターンマッチングを拡張することで、オープンワールドにおけるOOD検出の時間的ドリフトと共変量シフトに対処します。
  • OOD画像とテキスト説明をペアリングすることで、IDとOOD信号の間のクロスモーダルな整合性を確立し、画像と言語を組み合わせた推論を通じて決定境界を洗練します。
  • セマンティックマッチングと視覚的典型性を最適に結合するための軽量な融合重みを学習し、非定常なデータ分布に対処します。
  • 分布が進化する状況での性能を安定化させるために、Average Thresholded Confidence(ATC)正則化を適用します。
  • 時間的に分割されたベンチマークにおける実験は、本手法が静的なベースラインを上回ることを示し、動的な環境に適した頑健なマルチモーダルOOD検出フレームワークを提供します。

Abstract

OOD検出は、データ分布が進化するオープンワールド学習において依然として重要な課題であり、モデルは進化するデータ分布に適応しなければならない。近年のビジョン-言語モデル(VLMS)であるCLIPのようなモデルは、Dual-Pattern Matching(DPM)を通じてマルチモーダルなOOD検出を可能にしますが、既存の手法は通常、二つの重大な欠点を抱えています。(1)固定融合ルールに依存し、静的な環境を前提としているため、時系列のドリフトに対処できません。(2)共変量シフトされた入力に対する頑健性が欠如しています。本論文では、動的設定におけるOOD検出と共変量分布シフト耐性を強化する、新たな二段階フレームワークを提案します。デュアルパターン・レジームを Temporal Quadruple-Pattern Matching(T-QPM)へ拡張します。まず、OOD画像とテキスト説明をペアリングすることで、IDとOOD信号間のクロスモーダル一貫性パターンを導入し、画像と言語の協調推論によって決定境界を洗練させます。次に、時系列分布シフトに対処するために、セマンティックマッチングと視覚的典型性を最適に結合する軽量な融合重みを学習します。安定性を確保するため、平均しきい値付き信頼度(Average Thresholded Confidence、ATC)に基づく明示的な正則化を適用し、分布が進化しても性能の低下を防ぎます。時間的に分割されたベンチマークでの実験は、提案手法が静的なベースラインを大幅に上回ることを示しており、非定常環境におけるマルチモーダルOOD検出のための堅牢で時間的一貫性のあるフレームワークを提供します。