要旨: 薬物関連有害事象は防止可能な害の重要な源であり、薬剤の安全性を高めるための自動錠剤認識システムの開発を促してきた。これらのシステムの現実世界での展開は、混雑したシーン、錠剤の重なり、反射、そして多様な取得環境など、視覚的に複雑な条件によって妨げられている。本研究は、実運用志向の観点から少数ショット錠剤認識を調査し、アーキテクチャの革新よりも現実的なデータセット間のドメインシフト下での一般化を優先する。二段階の物体検出フレームワークを採用し、基礎訓練の後に少数ショットのファインチューニングを行う。モデルは新規錠剤クラスへ、各クラスにつき1、5、または10のラベル付きサンプルを用いて適応させ、マルチオブジェクトで混雑したシーンを特徴とする別のデプロイメントデータセットで評価する。評価は、異種の注釈戦略に対応するため、分類中心の指標と誤りベースの指標に焦点を当てる。結果は、セマンティック錠剤認識が少数ショットの教師付き学習で急速に適応し、分類性能は1つのラベル付き例からでも飽和に達することを示している。しかし、重なり合いと遮蔽の条件下でのストレステストは、セマンティック分類が堅牢であるにもかかわらず、局在化とリコールの顕著な低下を示している。視覚的に現実的でマルチ錠剤データで訓練されたモデルは、低ショットの状況で一貫してより堅牢であることを示しており、データ現実性の重要性とデプロイ準備のための少数ショット微調整の有用性を強調している。
視覚的ドメインシフト下での少数ショット錠剤認識の評価
arXiv cs.CV / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 現実世界のドメインシフトの下での少数ショット錠剤認識を、基礎訓練に続く少数ショット微調整を組み合わせた二段階の物体検出パイプラインを用いて評価し、デプロイメントに似た混雑したマルチ錠剤データセット上で、各クラスにつき1、5、または10のラベル付き例でテストする。
- セマンティック錠剤認識は、少数ショットの教師付き学習で迅速に適応でき、分類性能は1つのラベル付き例からでも飽和することが示される。
- 重なり合う錠剤や遮蔽された錠剤などの困難な条件下では、セマンティック分類が堅牢であるにもかかわらず、局在化とリコールが低下することが示されている。
- 視覚的に現実的でマルチ錠剤データを用いて訓練されたモデルは、低ショットの状況でより堅牢であることが一貫して示されており、データの現実性の重要性とデプロイ準備のための少数ショット微調整の有用性を強調している。

