T-QPM: オープンワールドにおける視覚-言語モデルの時間的分布外検出とドメイン一般化を可能にする
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は Temporal Quadruple-Pattern Matching(T-QPM)を提案し、視覚-言語モデル向けのデュアルパターンマッチングを拡張することで、オープンワールドにおけるOOD検出の時間的ドリフトと共変量シフトに対処します。
- OOD画像とテキスト説明をペアリングすることで、IDとOOD信号の間のクロスモーダルな整合性を確立し、画像と言語を組み合わせた推論を通じて決定境界を洗練します。
- セマンティックマッチングと視覚的典型性を最適に結合するための軽量な融合重みを学習し、非定常なデータ分布に対処します。
- 分布が進化する状況での性能を安定化させるために、Average Thresholded Confidence(ATC)正則化を適用します。
- 時間的に分割されたベンチマークにおける実験は、本手法が静的なベースラインを上回ることを示し、動的な環境に適した頑健なマルチモーダルOOD検出フレームワークを提供します。

