植物画像表現の自己教師あり学習

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、生物多様性のモニタリングで専門家のラベル付きデータに依存しがちな課題を背景に、植物画像の表現学習に自己教師あり学習(SSL)を適用することを検討する。
  • Gaussian blur、グレースケール化、ソラリゼーションなどの一般的なSSL向け拡張は、微細な識別手がかりを除去してしまい、植物のような細粒度の種識別では有害になり得ると示す。
  • affineやposterizationといった代替の変換が、この領域により適しており、細粒度認識に必要な特徴をよりよく保てることを提案する。
  • SimDINOv2をiNaturalist 2021のPlantaeサブセットで学習すると、ImageNet-1Kで学習する場合より大幅に強い表現が得られ、ドメイン固有データの重要性を強調する。
  • ViT-BaseとViT-Largeの両方で一貫しており、Few-shot設定の下流タスクではPl@ntCLEFやBioCLIPといった強力な教師ありベースラインに匹敵、場合によっては上回る性能を示す。

要旨: 自動化された植物の認識は、生物多様性のモニタリングと保全において重要な役割を果たしますが、現行のアプローチは専門家によるラベル付きデータの入手可能性に制約されるため、主に教師あり学習に依存しています。自己教師あり学習(SSL)はスケーラブルな代替手段を提供しますが、既存の手法や学習プロトコルは、大まかな視覚タスクを想定して設計されていることが多く、植物種の認識のような細粒度領域への移転にはうまく適用できない可能性があります。本研究では、植物画像の表現学習に対するSSLを検討します。SSLパイプラインで一般的に用いられる拡張(ガウスぼかし、グレースケール変換、ソラリゼーションなど)は、細粒度認識に不可欠な微妙な識別手がかりを取り除いてしまうため、植物画像の文脈では有害であることを示します。代わりに、アフィン変換やポスタリゼーションなど、この領域により適した別の変換を見出しました。さらに、iNaturalist 2021のPlantaeサブセットでSimDINOv2を学習すると、ImageNet-1Kで学習するよりも有意に強力な表現が得られることを示し、SSLにおいて領域固有のデータが重要であることを強調します。これらの知見は、ViT-BaseおよびViT-Largeの両方のアーキテクチャで一貫しています。加えて、提案モデルは競争力のある性能を達成し、場合によっては少数ショット設定の下流の植物認識タスクにおいて、強力な教師ありベースラインであるPl@ntCLEFやBioCLIPを上回ります。全体として、本研究の結果は、自己教師あり学習における、領域に適応した拡張戦略とデータセット選択の決定的な重要性を示しており、生物多様性モニタリングのためのスケーラブルなモデルを構築するための実践的な指針を提供します。