AI Navigate

プランクトン認識のためのクロスモーダル学習

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • 本論文は、ラベルなしデータを用いて認識性能を向上させるため、プランクトンの画像と光学測定データ(散乱と蛍光)を共同で用いる自己教師ありのクロスモーダル学習フレームワークを提案する。
  • 画像と対応する光学計測データが同じ粒子由来であるかを示す二値の監督信号を用いて、両モダリティのエンコーダを訓練し、クロスモーダルの協調を可能にする。
  • 少量のラベル付きギャラリーと k-NN分類器を用いて最終認識を行い、ラベル付きデータを最小限に抑えつつ高い精度を達成し、画像のみを用いた自己教師付きベースラインを上回る。
  • 本研究はマルチモーダルでラベル効率の高いプランクトン認識を強調しており、再現性のためにリンク先のGitHubリポジトリにコードを提供している。

要旨:本論文は、自己教師付きのクロスモーダル協調を、複数のモダリティと大量のラベルなしのプランクトンデータを活用してプランクトン認識モデルを構築する戦略として検討する。自動撮像機器は、プランクトン画像データを大規模に継続的に収集することを促進する。現在のプランクトン画像認識の自動化手法は主に教師ありアプローチに依存しており、ラベル付き訓練データセットの収集は労働集約的である。一方、現代の一部のプランクトン撮像機器は、画像情報を散乱および蛍光プロファイルといった光学計測データで補完するが、現時点ではプランクトン認識では広く活用されていない。本研究では、こうした測定データを手動ラベリングを必要とせず、学習プロセスの指針として用いる可能性を探る。Contrastive Language-Image Pre-training の背後にある概念に触発され、両モダリティのエンコーダを、ある画像とプロファイルが同じ粒子由来か異なる粒子由来かを示す二値の監視情報のみを用いて訓練する。プランクトン認識のためには、既知のプランクトン種の小規模なラベル付きギャラリーと k-NN 分類器を組み合わせて用いる。このアプローチは、画像とプロファイルデータの両方から情報を抽出して利用できる、固有にマルチモーダルな認識モデルを生み出す。提案手法は、最小限のラベル付き画像数で高い認識精度を達成することを示す。さらに、提案手法は画像のみの自己教師付きベースラインを上回ることを示す。コードは https://github.com/Jookare/cross-modal-plankton に公開されている。