凍結した基盤モデル埋め込みに対する半教師あり学習による、ラベル効率の高い潜水生物種の分類

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、凍結したDINOv3 ViT-Bの基盤モデル埋め込みに対して自己学習（self-training）を行うことで、埋め込みの微調整を一切行わない、ラベル効率の高い半教師ありの潜水生物種分類器を提案する。
利用可能なラベルが5%未満でも、この手法は、ラベル付きデータをすべて用いて学習した完全教師ありのConvNeXtモデルに対する性能ギャップを大きく埋め、ラベルが十分に利用可能な場合には、その差が数パーセントポイント程度にまで縮まる。
AQUA20海洋種ベンチマークでの評価では、凍結埋め込み空間におけるクラスの分離可能性が高い（高いROC-AUC）ことが示されており、判断境界がまだ十分に推定されていない場合でも弁別的な構造が存在することを示唆している。
このアプローチは、学習を必要とせず、ドメイン固有のデータエンジニアリングを要せず、水中適応モデルも不要であるため、実運用における実用的な利点があると主張している。また、100回のランダムな初期値（random seed）の平均で結果を報告している。
中核となる貢献は、事前学習済みの凍結表現の上に半教師あり学習を適用することで、専門家の注釈コストを削減し、新たな潜水環境間での転移性能を向上できることを示す点にある。

要旨: 水中画像からの自動種分類は、専門家による注釈（アノテーション）のコストによってボトルネック化しており、あるデータセットで訓練した教師ありモデルは、新しい条件へはほとんど移行（転移）できません。私たちは、凍結した基盤モデルの埋め込み（embeddings）上で動作する半教師あり手法が、最小限のラベリング作業でこの注釈ギャップを埋められるかどうかを検証します。微調整なしでDINOv3 ViT-Bの埋め込みを用い、最近傍（nearest-neighbor）に基づく自己学習（self-training）によって、少量のラベル付きシードを未ラベルデータへ伝播させ、AQUA20ベンチマーク（20の海洋種）で評価します。訓練ラベルが5%未満の場合、凍結した埋め込み上での自己学習は、ラベル付きデータセット全体で訓練した完全教師ありのConvNeXt基準に対して、そのギャップの大部分を埋めます。完全な監督（フルスーパービジョン）ではギャップは数パーセントポイントまで縮まり、複数の種で教師あり基準を上回ります。埋め込み空間におけるクラスの識別可能性は、ROC-AUCで測定すると、極端なラベル不足の状況でも高く、決定境界を信頼できる形で推定できるより前から、凍結表現が識別的な構造をうまく捉えていることが示唆されます。提案手法は、学習を必要とせず、ドメイン固有のデータエンジニアリングも不要で、水中適応モデルも不要です。ラベル効率の高い海洋種認識に対する、実用的で即時に導入可能な基準（ベースライン）を確立します。すべての結果は、100回のランダムなシード初期化に対して、保持されたテストセットで報告します。