要約: 深層学習は、コンピュータビジョンの現代的なアプローチやツールのほとんどの基盤となっており、生物医学画像を含みます。しかし、対話的セマンティックセグメンテーション(この文脈ではしばしばピクセル分類と呼ばれる)および対話的なオブジェクトレベル分類(オブジェクト分類)には、特徴量ベースの浅層学習が依然として広く用いられています。これはこのドメインにおけるデータの多様性、巨大な事前学習データセットの不足、および計算資源とラベルの効率性の必要性によるものです。対照的に、顕微鏡観察における他の多くの視覚タスク、特に細胞インスタンスセグメンテーションの最先端ツールはすでに深層学習に依存しており、最近では視覚ファウンデーションモデル(VFMs)、特に SAM から大きな恩恵を受けています。ここでは、VFMs が現在のアプローチと比較してピクセル分類およびオブジェクト分類を改善できるかを検証します。 この目的のために、一般用途モデル(SAM、SAM2、DINOv3)とドメイン特有のもの($SAM、PathoSAM)を含む複数のVFMsを評価し、浅層学習とアテンティブ・プロービングを組み合わせて、5つの多様で挑戦的なデータセット上で評価します。私たちの結果は、手作りの特徴よりも一貫した改善を示し、実用的な改善への明確な道筋を提供します。さらに、私たちの研究は顕微鏡検査分野における VFMs のベンチマークを確立し、この分野の今後の発展に情報を提供します。
顕微鏡画像におけるピクセル単位および物体分類のための Vision Foundation Models の評価
arXiv cs.CV / 2026/3/23
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本研究では一般目的のVFMs(SAM、SAM2、DINOv3)およびドメイン特化型VFMs(μSAM、PathoSAM)を、顕微鏡画像におけるピクセル単位のセマンティック分類および物体レベル分類の評価対象として比較・評価した。
- 5つの多様なデータセットを用い、アテンティブ・プロービングを用いた浅層学習でVFMsを顕微鏡画像領域でベンチマークした。
- 結果は手作り特徴量に対して一貫した改善を示し、生物医学画像処理タスクにおける実用的な利点を示唆する。
- 本研究はベンチマークを確立し、顕微鏡分野におけるVFMsの今後の開発のための明確な道筋を提示している。



