Beyond Mamba: 可変(deformable)な拡張畳み込みでステート空間モデルを強化し、多尺度の交通物体検出を実現

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、小さな物体が散乱したシーンにおける困難さを対象とした、多尺度交通物体検出のためのMambaベースモデル「MDDCNet」を提案する。
  • 階層的な多尺度可変拡張畳み込み(MSDDC)ブロックとMambaブロックを組み合わせることで、局所的な詳細と大域的な意味の双方をより適切に捉えるように、ステート空間モデリングを強化する。
  • チャネル間の相互作用を改善するために、Channel-Enhanced Feed-Forward Network(CE-FFN)を導入し、従来のFFNの限界に対処する。
  • より強力なクロススケール融合のために、MambaベースのAttention-Aggregating Feature Pyramid Network(A^2FPN)を用いて、多尺度特徴の集約を改善する。
  • 公開ベンチマークおよび実世界データセットでの実験により、MDDCNetが複数の先進的検出器を上回ることが報告されており、著者はGitHubでコードも提供している。

Abstract

現実の交通シーンでは、異なるスケールの物体は通常、雑然とした背景の中に分布しており、正確な検出に大きな課題をもたらします。現在のMambaベース手法は長距離の依存関係を効率よくモデル化できますが、局所的な詳細が豊富な小さな物体を捉えることが依然として難しく、局所構造とグローバルな意味の同時モデリングを妨げています。さらに、状態空間モデルは、フラットな逐次モデリングと不十分な空間的な帰納バイアスのために階層的な特徴表現の能力が限られ、クロススケールの相互作用も弱くなり、その結果、複雑なシーンでは性能が最適にならないことがあります。これらの問題に対処するため、本研究では交通物体を正確に検出するための、Mamba with Deformable Dilated Convolutions Network(MDDCNet)を提案します。MDDCNetでは、連続するMulti-Scale Deformable Dilated Convolution(MSDDC)ブロックとMambaブロックから成る適切に設計されたハイブリッドバックボーンにより、局所的な詳細からグローバルな意味までの階層的特徴表現を実現します。一方で、従来のフィードフォワードネットワークのチャネル間相互作用能力の制限を克服するために、Channel-Enhanced Feed-Forward Network(CE-FFN)をさらに設計します。また、多スケール特徴の融合と相互作用を強化するために、MambaベースのAttention-Aggregating Feature Pyramid Network(A^2FPN)を構築します。公開ベンチマークおよび実世界データセットに対する大規模な実験結果は、本手法がさまざまな先進的検出器に対して優れていることを示しています。コードは https://github.com/Bettermea/MDDCNet で公開されています。

Beyond Mamba: 可変(deformable)な拡張畳み込みでステート空間モデルを強化し、多尺度の交通物体検出を実現 | AI Navigate