PKINet-v2: 力強く効率的なポリカーネルリモートセンシング物体検出へ

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

共有:

要点

PKINet-v2 は、異方性の軸方向ストリップ畳み込みと等方性の正方カーネルを組み合わせて、多スコープの受容野を構築し、長距離の文脈を捉えつつ細部を保持します。
異種カーネル再パラメータ化（HKR）戦略を導入し、すべての分岐を単一のデプスワイズ畳み込みに統合して、精度を損なうことなく推論を効率化します。
本モデルは、DOTA-v1.0、DOTA-v1.5、HRSC2016、DIOR-R の複数のリモートセンシングベンチマークで最先端の精度を達成し、PKINet-v1 に対して FPS を 3.9 倍高速化します。
細長い対象と広い対象を共同で扱うことで、PKINet-v2 はリモートセンシング物体検出における多様なアスペクト比とサイズの課題に対処します。
本アプローチは、効果とデプロイメント効率の両立を実現し、リモートセンシング画像処理パイプラインでの実用的な利用を可能にします。

要約: リモートセンシング画像（RSI）における物体検出は、幾何的および空間的な複雑さが共存することによって難しさが生じます。ターゲットは多様なアスペクト比を持つように現れ、さまざまな文脈の下で広範囲の物体サイズにまたがることがあります。既存のRSIバックボーンはこの二つの課題を別々に扱います。細長いターゲットをモデル化するために異方性ストリップカーネルを採用するか、あるいは等方性の大きなカーネルを使用してより広い文脈を捉えます。しかし、そのような孤立した処理は補完的な欠点を招きます：ストリップのみの設計は規則的な形状の物体の空間的な一貫性を乱し、微細なディテールを弱めます。一方、等方性の大きなカーネルは細長い構造に対して深刻なバックグラウンドノイズと幾何的不一致をもたらしがちです。本論文では PKINet を拡張し、統合的なパラダイムである Poly Kernel Inception Network v2（PKINet-v2）と呼ばれる強力で効率的なバックボーンを提示します。PKINet-v2 は異方性の軸方向ストリップ畳み込みと等方性の正方形カーネルを統合し、複数スコープの受容野を構築して、細粒度の局所テクスチャを保持しつつ、スケール間で長距離の文脈を段階的に集約します。効率的なデプロイを可能にするため、異種カーネル再パラメータ化（HKR）戦略を導入し、すべての異種ブランチを推論時に単一の深さ方向畳み込みに統合して、精度損失なく断片化されたカーネル起動を排除します。DOTA-v1.0、DOTA-v1.5、HRSC2016、DIOR-R を含む4つの広く使用されるベンチマークでの広範な実験は、PKINet-v2 が最先端の精度を達成するとともに、PKINet-v1 と比較して $\textbf{3.9}\times$ の FPS 加速を実現し、従来のリモートセンシングバックボーンを効果と効率の両方で上回ることを示しています。

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

PKINet-v2: 力強く効率的なポリカーネルリモートセンシング物体検出へ

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer