AI Navigate

PKINet-v2: 力強く効率的なポリカーネルリモートセンシング物体検出へ

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • PKINet-v2 は、異方性の軸方向ストリップ畳み込みと等方性の正方カーネルを組み合わせて、多スコープの受容野を構築し、長距離の文脈を捉えつつ細部を保持します。
  • 異種カーネル再パラメータ化(HKR)戦略を導入し、すべての分岐を単一のデプスワイズ畳み込みに統合して、精度を損なうことなく推論を効率化します。
  • 本モデルは、DOTA-v1.0、DOTA-v1.5、HRSC2016、DIOR-R の複数のリモートセンシングベンチマークで最先端の精度を達成し、PKINet-v1 に対して FPS を 3.9 倍高速化します。
  • 細長い対象と広い対象を共同で扱うことで、PKINet-v2 はリモートセンシング物体検出における多様なアスペクト比とサイズの課題に対処します。
  • 本アプローチは、効果とデプロイメント効率の両立を実現し、リモートセンシング画像処理パイプラインでの実用的な利用を可能にします。

要約: リモートセンシング画像(RSI)における物体検出は、幾何的および空間的な複雑さが共存することによって難しさが生じます。ターゲットは多様なアスペクト比を持つように現れ、さまざまな文脈の下で広範囲の物体サイズにまたがることがあります。既存のRSIバックボーンはこの二つの課題を別々に扱います。細長いターゲットをモデル化するために異方性ストリップカーネルを採用するか、あるいは等方性の大きなカーネルを使用してより広い文脈を捉えます。しかし、そのような孤立した処理は補完的な欠点を招きます:ストリップのみの設計は規則的な形状の物体の空間的な一貫性を乱し、微細なディテールを弱めます。一方、等方性の大きなカーネルは細長い構造に対して深刻なバックグラウンドノイズと幾何的不一致をもたらしがちです。本論文では PKINet を拡張し、統合的なパラダイムである Poly Kernel Inception Network v2(PKINet-v2)と呼ばれる強力で効率的なバックボーンを提示します。PKINet-v2 は異方性の軸方向ストリップ畳み込みと等方性の正方形カーネルを統合し、複数スコープの受容野を構築して、細粒度の局所テクスチャを保持しつつ、スケール間で長距離の文脈を段階的に集約します。効率的なデプロイを可能にするため、異種カーネル再パラメータ化(HKR)戦略を導入し、すべての異種ブランチを推論時に単一の深さ方向畳み込みに統合して、精度損失なく断片化されたカーネル起動を排除します。DOTA-v1.0、DOTA-v1.5、HRSC2016、DIOR-R を含む4つの広く使用されるベンチマークでの広範な実験は、PKINet-v2 が最先端の精度を達成するとともに、PKINet-v1 と比較して \textbf{3.9}\times の FPS 加速を実現し、従来のリモートセンシングバックボーンを効果と効率の両方で上回ることを示しています。