要旨: トランスフォーマーに基づく検出器は小物体検出を前進させてきましたが、しばしば非効率であり、背景によってクエリにノイズが誘発されやすいという問題があります。そこで、低品質なクエリを改善するために深いデコーダが動機づけられています。本稿では、HELP(Heatmap-guided Embedding Learning Paradigm:ヒートマップ誘導埋め込み学習パラダイム)を提案します。これは、背景の雑多さを抑制しつつ、前景の顕著領域においてのみ位置情報の符号化を選択的に保持することで、位置情報をどこに埋め込むべきかを研究する、ノイズに配慮した位置・意味の融合フレームワークです。HELPの中で、コアとなる埋め込み機構としてHeatmap-guided Positional Embedding(HPE)を導入し、解釈可能な診断と微調整のためにヒートバーで可視化します。HPEはエンコーダとデコーダの両方に統合されます。すなわち、ヒートマップに配慮した位置符号化を注入することで、ノイズ抑制された特徴の符号化を導き、さらに、デコード前に勾配ベースのマスクフィルタで背景優位の埋め込みを除外することで、高品質なクエリの取得を可能にします。複雑な小ターゲットにおける特徴の疎性に対処するため、Linear-Snake Convolutionを統合して、取得に関連する表現を豊かにします。勾配ベースのヒートマップ監督は学習時のみに用いられ、推論時には追加の勾配計算を伴いません。その結果、本設計によりデコーダ層を8から3へ削減し、計算予算を抑えた状態でもベンチマーク間で一貫した精度向上を維持しながら、59.4%のパラメータ削減(66.3M vs. 163M)を達成します。コードリポジトリ: https://github.com/yidimopozhibai/Noise-Suppressed-Query-Retrieval
埋め込み位置を学習する:小物体検出におけるクエリ検索のためのノイズ対応位置埋め込み
arXiv cs.CV / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、トランスフォーマー型の小物体検出における非効率性と、背景によって生じる「クエリノイズ」を、位置情報の埋め込み場所を工夫して解決しようとしています。
- HELP(Heatmap-guided Embedding Learning Paradigm)を提案し、前景の重要領域では位置埋め込みを選択的に保持し、背景の雑音は抑制します。
- 中核となる手法であるHeatmap-guided Positional Embedding(HPE)は、エンコーダとデコーダの両方で位置情報と意味情報を融合し、勾配ベースのマスクフィルタでクエリ検索の質を高めます。
- 小さく複雑なターゲットにおける特徴の疎性に対処するため、Linear-Snake Convolutionを導入して検索に有効な表現を強化します。
- 実験では、デコーダ層を8から3へ削減し、パラメータを59.4%削減しつつ精度向上を維持できることを示し、推論時には追加の勾配計算コストが発生しないとしています。




