広告

DenseSwinV2:チャネル注意型デュアルブランチCNNトランスフォーマ学習によるキャッサバ葉病害分類

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、DenseNetスタイルの密な局所特徴学習と、カスタマイズしたSwin Transformer V2によるグローバル文脈モデリングを組み合わせた、ハイブリッド2分岐のCNN–Transformerフレームワーク「DenseSwinV2」を提案し、キャッサバ葉病害の分類を行う。
  • シフト付きウィンドウの自己注意を用いて、視覚的に類似した病変の識別に役立つ長距離依存関係を捉え、遮蔽、ノイズ、複雑な背景といった課題に対処する。
  • 各ストリームに対して独立したチャネル圧縮(squeeze)注意モジュールを適用し、疾患に関連する識別的な応答を強調し、冗長な活性や背景由来の活性を抑制する。
  • 公開キャッサバデータセット(正常を含む5条件で31,000枚の画像)において、DenseSwinV2は分類精度98.02%、F1スコア97.81%を報告し、既存のCNNおよびトランスフォーマのベースラインを上回る。
  • 結果は、本手法が画像品質が変動する圃場レベルの農業診断において、堅牢で実用的であることを示唆している。

Abstract

本研究は、キャッサバ病(cassava disease)分類のために、密に接続された畳み込み特徴と階層的にカスタマイズされた Swin Transformer V2(SwinV2)表現を共同で活用する、新しいハイブリッド・デンス(Hybrid Dense)SwinV2を提案する。提案フレームワークは、DenseNet分岐によって高解像度の局所特徴を捉え、微細な構造的手掛かりを保持すると同時に、効果的な勾配伝播を可能にする。一方で、カスタマイズされたSw i nV2モデルは、シフト窓型自己注意(shifted-window self attention)の考え方により、グローバルな文脈依存関係を学習し、視覚的に類似した病変を識別するために重要な長距離の相互作用の捕捉を可能にする。さらに、各CNN Transformerストリームごとに注意チャネルのスクイーズ(attention channel-squeeze)モジュールを独立に適用し、識別力のある疾病関連の応答を強調し、冗長なものや背景に起因する活性を抑制する。最後に、これらの識別的チャネルを融合して、密な局所特徴と、SwinV2のグローバル相関が強化された特徴マップそれぞれから、洗練された表現を得る。提案するDense SwinV2は、茶褐色の筋(brown streak)、モザイク(mosaic)、緑斑(green mottle)、細菌性病斑(bacterial blight)、および健全な葉(normal leaf)状態を含む5つの疾病から成る、合計31000枚の公開キャッサバ葉疾病データセットを利用した。提案するDense SwinV2は、F1スコア97.81パーセントで98.02パーセントという顕著な分類精度を示し、確立された畳み込みモデルおよびトランスフォーマーモデルを上回る。これらの結果は、Hybrid Dense SwinV2が、遮蔽(occlusion)、ノイズ、複雑な背景に関する現実世界の課題を伴うキャッサバ病のフィールドレベル診断において、頑健性と実用性を提供することを裏付けている。

広告