ランダム拡張畳み込みとマルチブランチ特徴抽出、文脈励起による画像分類

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、ResNet-34をベースにした画像分類ネットワークRDCNetを提案し、微細な特徴抽出の強化と背景ノイズの抑制、過学習の低減を同時に目指します。
  • RDCNetの中核であるMRDCモジュールは、異なる拡張率(dilation rate)を持つ複数ブランチのランダム拡張畳み込みと確率的マスキングを組み合わせ、マルチスケールの詳細を頑健に捉えます。
  • Fine-Grained Feature Enhancement(FGFE)モジュールは、適応プーリングと双一次補間により大域コンテキストを局所特徴へ橋渡しし、微妙な視覚パターンへの感度を高めます。
  • Context Excitation(CE)モジュールは、ソフトマックスに基づく空間注意とチャネル再調整によって、タスクに関連する領域を強調し背景の干渉を抑えます。
  • CIFAR-10/100、SVHN、Imagenette、Imagewoofの各データセットで実験を行い、いずれも最先端の精度を達成し、データセットに応じて2番手手法を最大で数ポイント上回ります。

Abstract

画像分類は、計算機視覚における基礎的な課題でありながら、特に微細な特徴抽出と背景ノイズの抑制を同時に必要とする場合に、依然として非常に難しいタスクです。階層的な特徴学習において目覚ましい成功を収めている従来の畳み込みニューラルネットワークであっても、多尺度の文脈情報を捉えることがしばしば困難であり、さらにノイズや無関係な画像領域に直面すると過学習に陥りやすいという問題があります。本論文では、これらの制限に対処するために、ResNet-34 を基盤として構築された新しいアーキテクチャ RDCNet(Random Dilated Convolution を用いた画像分類ネットワーク)を提案します。本手法は、3つの相乗的な革新を統合して、以下の課題を解決します: (1) 複数ブランチのランダム拡張畳み込み(MRDC)モジュール。拡張率(dilation rate)が異なる複数の並列ブランチと、確率的なマスキング機構を組み合わせて、多数のスケールにわたって微細な特徴を捉えつつ、ノイズおよび過学習に対する頑健性を高めます; (2) MRDC に埋め込まれた微細特徴強調(FGFE)モジュール。適応的プーリングと双線形補間を通じて、グローバルな文脈情報とローカルな特徴表現を橋渡しし、微妙な視覚パターンへの感度を増幅します; (3) 文脈励起(CE)モジュール。ソフトマックスに基づく空間注意とチャネル再調整を用いて、タスクに関連する特徴を動的に強調し、背景による干渉を抑制します。CIFAR-10、CIFAR-100、SVHN、Imagenette、Imagewoof の5つのベンチマークデータセットで実施した大規模な実験により、RDCNet が一貫して最先端の分類精度を達成し、2番手の競合手法をそれぞれ 0.02 op、1.12 op、0.18 op、4.73 op、3.56 op の差で上回ることが示されます。これにより、本提案手法が多様な視覚認識シナリオに対して有効であり、汎化可能性があることが検証されます。