AI Navigate

VISTA: 希少病変を対象とするカプセル内視鏡(VCE)イベント検出のための空間的・時間的基盤モデルの検証主導統合と解剖学的デコーディング

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

要点

  • 本論文はカプセル内視鏡のイベント検出をメトリクスに適合させた Rare-VISION タスクとして再定義し、フレームレベルの精度よりもイベントレベルの評価に焦点を当てる。
  • 本手法は二つのバックボーンを統合する。局所的な時間的文脈を担う EndoFM-LV と、強力なフレームレベルの視覚セマンティクスを持つ DINOv3 ViT-L/16 に、多様なヘッド・アンサンブルと検証主導の階層的フュージョンを組み合わせて統合する。
  • デコーディング段階では解剖学を意識した時系列デコーディング、平滑化、閾値の調整、ラベルごとのイベント生成を適用し、安定したイベント予測を得る。
  • アブレーション研究は、補完的なバックボーンを検証主導の融合と解剖学的デコーディングと組み合わせることでイベントレベルの性能が向上することを示し、隠しテストセットで時系列 mAP@0.5 が 0.3530、mAP@0.95 が 0.3235 を達成した。

要旨: カプセル内視鏡イベント検出は、診断上関連する所見がまばらで、視覚的に異質で、長くノイズの多いビデオストリームに埋もれているため、難しいです。評価はフレーム単位の正確さだけでなくイベントレベルで行われます。したがって、RARE-VISIONタスクを純粋なフレームごとの分類タスクではなく、指標に整合したイベント検出問題として定式化します。私たちのフレームワークは、局所的な時系列コンテキストのための EndoFM-LV と、強力なフレームレベルの視覚意味表現のための DINOv3 ViT-L/16 の二つの補完的バックボーンを組み合わせ、その後 Diverse Head Ensemble、Validation-Guided Hierarchical Fusion、Anatomy-Aware Temporal Event Decoding を続けます。融合段階は、検証に基づくクラス別モデル重み付け、バックボーン重み付け、確率のキャリブレーションを使用します。一方、デコーディング段階は時系列の平滑化、解剖学的制約、閾値の微調整、ラベルごとのイベント生成を適用して安定したイベント予測を生成します。検証によるアブレーションは、補完的なバックボーン、検証誘導型の fusion、解剖学的配慮を備えた時系列デコーディングがすべてイベントレベルの性能に寄与することを示しています。公式の非公開テストセットでは、提案手法は総合的な時系列 mAP@0.5 を 0.3530、時系列 mAP@0.95 を 0.3235 達成しました。