FACTOR：オープンボキャブラリ物体検出に対する反事実の学習不要・テスト時適応

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

オープンボキャブラリ物体検出は、分布シフト下で、クラスと相関する非因果的な視覚属性（明るさ、テクスチャなど）に誤って依存してしまうことで性能が劣化しがちです。
従来のテスト時適応（TTA）は、オンライン最適化により計算コストが高いか、あるいはグローバルなキャリブレーションに留まり、属性ごとの失敗要因を捉えきれていない場合があります。
FACTORは、非因果的属性方向にテスト画像を摂動させ、元の画像と反事実（counterfactual）ビューの間で領域レベルの予測を比較する、反事実にもとづく学習不要のテスト時適応を提案します。
比較結果から属性感度や意味的関連性を推定し、パラメータ更新なしで「属性に依存した予測」を抑制します。
PASCAL-C、COCO-C、FoggyCityscapesでの実験では、FACTORが既存のTTA手法に対して一貫した堅牢性向上を示しています。

要旨: オープン・ボキャブラリの物体検出は、分布シフト下ではしばしば失敗します。これは、（明るさ、テクスチャなどの）非因果的な視覚属性と物体カテゴリとの間に存在する「見かけ上の相関」によって誤誘導され得るためです。既存のテスト時適応（TTA）手法は、コストの高いオンライン最適化に依存するか、あるいはグローバルなキャリブレーションを行うだけで、これらの失敗が属性固有であるという性質を見落としています。これに対処するために、本研究では、反事実推論に基づく軽量な枠組みであるFACTOR（counterFACtual training-free Test-time adaptation for Open-vocabulaRy object detection、反事実に基づく学習なしのテスト時適応）を提案します。非因果的な属性に沿ってテスト画像を摂動させ、オリジナルと反事実の視点における領域レベルの予測を比較することで、FACTORは、属性感度、意味的関連性、ならびに予測のばらつきを定量化し、パラメータ更新を行わずに、属性依存の予測を選択的に抑制します。PASCAL-C、COCO-C、FoggyCityscapesに関する実験により、FACTORが従来のTTA手法を一貫して上回り、明示的な反事実推論が分布シフト下での頑健性を効果的に高めることが示されます。