要約: クロスドメインの少数ショット物体検出(CD-FSOD)は、限られたアノテーションしかないソースドメインからターゲットドメインへ事前学習済み検出器を適応させることを目的とするが、深刻なドメインシフトとデータ不足の問題に悩まされる。本研究では、これまで見過ごされてきた現象を見つけた。ターゲットドメインではモデルが分散した注意を示し、焦点が定まらず、定位が不正確で冗長な予測を生む。人間が視覚対象に集中できないのと同じである。したがって、これをターゲットドメイン乱視問題と呼ぶ。トランスフォーマーレイヤ間のアテンション距離に関する分析は、通常のファインチューニングが本質的にこの問題を是正する傾向を示すものの、結果はまだ満足のいく水準には遠く、本論文でこれを改善することを目指す。人間の中心窩型視覚系に生物学的インスピレーションを得て、中心-周辺のアテンション精練フレームワークを通じてファインチューニングの本来の傾向を強化する。それは以下を含む:(1) Positive Pattern Refinement モジュールを用いてセマンティックオブジェクトへ注意を再形成し、クラス特異的プロトタイプを用いて視覚中心領域を模倣する;(2) Negative Context Modulation モジュールを用いて背景コンテキストをモデリングし、境界の識別を高め、視覚周辺領域を模倣する;(3) Textual Semantic Alignment モジュールを用いてクロスモーダル手掛かりを通じて中心-周辺の区別を強化する。我々の生体インスパイアドアプローチは乱視的な注意を焦点の定まったパターンへと変換し、ターゲットドメインへの適応を大幅に改善する。6つの難易度の高いCD-FSODベンチマークでの実験は、検出精度の向上を一貫して示し、新しい最先端の結果を確立している。
クロスドメインFew-Shot物体検出におけるターゲットドメインの乱視を是正する
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クロスドメインFew-Shot物体検出における新たな問題としてターゲットドメイン乱視(target-domain astigmatism)を提起する。これにより、ターゲットドメインでの注意が分散し焦点が定まらず、局所化が不正確になり、冗長な予測が生じる。
- 生体に着想を得た中心-周辺の注意の精緻化フレームワークを3つのモジュールから構成する。正例パターンの精緻化はクラス特有のプロトタイプを用いて意味的オブジェクトへ注意を集中させ、背景コンテキストをモデリングして境界識別を高める Negative Context Modulation、そしてクロスモーダル手掛かりを用いて中心-周辺の区別を強化するテキスト意味整合(Textual Semantic Alignment)を組み合わせる。
- この手法は適応時の微調整を強化するため、fovea風の視覚系アナロジーを活用して乱視状の注意を焦点化されたパターンへと変換することを目指す。
- 6つの難易度の高いCD-FSODベンチマークでの実験により、一貫した改善を示し、クロスドメインFew-Shot物体検出の新たな最先端成果を確立した。




