IRSTDを再考する:単一点スーパービジョンで導くエンコーダのみのフレームワークで赤外線小目標検出は十分

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、赤外線小目標検出(IRSTD)では、ピクセルレベルのエンコーダ–デコーダによるセグメンテーションよりも目標の局在化を重視すべきだと主張する。なぜなら、目標は数ピクセル程度であり、クラッタにより境界がぼやけがちだからである。
  • IRSTDを重心回帰問題として再定式化し、エンコーダのみのエンドツーエンド処理パイプラインで動作することを目的とした、Single-Point Supervision guided Infrared Probabilistic Response Encoding(SPIRE)を提案する。
  • SPIREは、Point-Response Prior Supervision(PRPS)を用いて、単一点ラベルを確率的レスポンスマップへ変換し、赤外線の点状目標の特性により適合させる。
  • 高解像度の確率的エンコーダ(HRPE)を提案し、デコーダによる再構成を行わずに出力を直接回帰することで、疎な目標分布下での最適化不安定性の低減を狙う。
  • SIRST-UAVBやSIRST4といったベンチマークでの実験により、低い誤警報率を維持しつつ目標レベルで競争力のある検出性能が示され、さらに計算コストも大幅に低いことが確認され、コードは公開されている。

Abstract

赤外線小目標検出(IRSTD)は、小さな目標をクラッタ(雑音)背景から分離することを目的とします。ピクセルレベルの教師ありに基づく「エンコーダ・デコーダ」セグメンテーションのパラダイムに対しては、広範な研究が行われています。有望な性能は得られているものの、小目標は実際には数ピクセルしか占有せず、さらにクラッタ背景によって境界がぼやけてしまうことが多い、という事実が見落とされています。この観察に基づき、IRSTDの第一原理は、識別不能な背景ノイズを伴う全ての目標領域を分離することではなく、目標の局在化であるべきだと主張します。本論文では、IRSTDを重心回帰タスクとして再定式化し、Single-Point Supervision(単一点教師)に導かれる赤外線確率応答エンコーディング手法(すなわちSPIRE)を提案します。この手法は、教師ネットワークの縮小と同等の出力との間に不一致があるため、実際に困難です。具体的には、まず、単一点アノテーションを赤外線の点目標応答特性に整合する確率応答マップへと変換するPoint-Response Prior Supervision(PRPS)を設計し、さらに、デコーダ再構成なしでエンコーダのみのエンドツーエンド回帰を可能にするHigh-Resolution Probabilistic Encoder(HRPE)を用います。高解像度特徴を保持し、有効な教師密度を増やすことで、SPIREは、疎な目標分布下での最適化不安定性を緩和します。最後に、SIRST-UAVBやSIRST4を含む各種IRSTDベンチマークでの大規模な実験により、SPIREが、低い誤警報率(Fa)を一貫して維持しつつ、計算コストを大幅に削減しながら、目標レベルで競争力のある検出性能を達成することを示します。コードは以下で公開されています: https://github.com/NIRIXIANG/SPIRE-IRSTD。