プランクトン認識のためのクロスモーダル学習

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

共有:

要点

本論文は、ラベルなしデータを用いて認識性能を向上させるため、プランクトンの画像と光学測定データ（散乱と蛍光）を共同で用いる自己教師ありのクロスモーダル学習フレームワークを提案する。
画像と対応する光学計測データが同じ粒子由来であるかを示す二値の監督信号を用いて、両モダリティのエンコーダを訓練し、クロスモーダルの協調を可能にする。
少量のラベル付きギャラリーと k-NN分類器を用いて最終認識を行い、ラベル付きデータを最小限に抑えつつ高い精度を達成し、画像のみを用いた自己教師付きベースラインを上回る。
本研究はマルチモーダルでラベル効率の高いプランクトン認識を強調しており、再現性のためにリンク先のGitHubリポジトリにコードを提供している。

要旨：本論文は、自己教師付きのクロスモーダル協調を、複数のモダリティと大量のラベルなしのプランクトンデータを活用してプランクトン認識モデルを構築する戦略として検討する。自動撮像機器は、プランクトン画像データを大規模に継続的に収集することを促進する。現在のプランクトン画像認識の自動化手法は主に教師ありアプローチに依存しており、ラベル付き訓練データセットの収集は労働集約的である。一方、現代の一部のプランクトン撮像機器は、画像情報を散乱および蛍光プロファイルといった光学計測データで補完するが、現時点ではプランクトン認識では広く活用されていない。本研究では、こうした測定データを手動ラベリングを必要とせず、学習プロセスの指針として用いる可能性を探る。Contrastive Language-Image Pre-training の背後にある概念に触発され、両モダリティのエンコーダを、ある画像とプロファイルが同じ粒子由来か異なる粒子由来かを示す二値の監視情報のみを用いて訓練する。プランクトン認識のためには、既知のプランクトン種の小規模なラベル付きギャラリーと $k$ -NN 分類器を組み合わせて用いる。このアプローチは、画像とプロファイルデータの両方から情報を抽出して利用できる、固有にマルチモーダルな認識モデルを生み出す。提案手法は、最小限のラベル付き画像数で高い認識精度を達成することを示す。さらに、提案手法は画像のみの自己教師付きベースラインを上回ることを示す。コードは https://github.com/Jookare/cross-modal-plankton に公開されている。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

Reddit r/MachineLearning

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

Reddit r/LocalLLaMA

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

Reddit r/LocalLLaMA

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

Reddit r/MachineLearning

プランクトン認識のためのクロスモーダル学習

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer