周波数強化デュアルサブスペースネットワークによる少数ショットの細粒度画像分類

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

要点

  • 本論文は、単一視点のメトリック学習で起きやすいテクスチャのバイアスやノイズへの過学習を抑える、少数ショット細粒度画像分類手法FEDSNetを提案する。
  • DCTに基づくローパスフィルタリングにより、空間特徴から低周波の大域的構造成分を明示的に分離し、背景による干渉を抑制する。
  • FEDSNetは、切り詰めSVD(truncated SVD)を用いて、空間テクスチャ用と周波数の構造特徴用の2つの独立した低ランク・線形サブスペースを構築する。
  • 適応的なゲーティング機構で両サブスペースの距離を動的に融合し、周波数サブスペースの安定性を活かして少数ショット下での構造の頑健性を高める。
  • CUB-200-2011、Stanford Cars、Stanford Dogs、FGVC-Aircraftの4つのベンチマークで、既存のメトリック学習手法に対して強い性能と計算効率の良さを示す。

Abstract

少数ショット微細粒度画像分類は、限られた数の注釈付きサンプルのみを用いて、視覚的に高度に類似したサブカテゴリを認識することを目的とします。既存のメトリック学習ベースの手法は、典型的に空間領域の特徴のみに依存しています。この単一の視点に限定されるため、モデルは必然的に固有のテクスチャバイアスを受け、その結果、重要な構造的詳細が高周波の背景ノイズと絡み合います。さらに、ビュー間の幾何学的制約が欠如しているため、単一ビューのメトリックはこのノイズに過適合しやすく、少数ショット条件下で構造の安定性が損なわれます。これらの課題に対処するため、本論文では周波数強化デュアル・サブスペース・ネットワーク(FEDSNet)を提案します。具体的には、FEDSNet は離散コサイン変換(DCT)と低域通過フィルタリング機構を用いて、空間特徴から低周波の大域的構造成分を明示的に分離し、それにより背景の干渉を抑制します。打ち切り特異値分解(SVD)を用いて、空間テクスチャ特徴と周波数構造特徴の双方に対して、独立した低ランクの線形サブスペースを構築します。そして、適応的なゲーティング機構を設計し、これらのデュアルビューから得られる射影距離を動的に融合します。この方策は、周波数サブスペースの構造的安定性を活用して、空間サブスペースが背景特徴に過適合することを防ぎます。4つのベンチマークデータセット、CUB-200-2011、Stanford Cars、Stanford Dogs、FGVC-Aircraft に対する大規模な実験により、FEDSNet が優れた分類性能と頑健性を示し、既存のメトリック学習アルゴリズムと比較して非常に競争力のある結果が得られることが確認されました。複雑度解析によっても、提案ネットワークが高い精度と計算効率の良好なバランスを達成しており、少数ショットの微細粒度視覚認識に対する効果的な新しいパラダイムを提供することが示されます。