Vision Transformerを用いたカプセル内視鏡動画からの希少疾患検出

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

要点

  • 本研究は、Vision Transformer (ViT) ベースのネットワークを適用し、カプセル内視鏡ビデオを対象に多ラベル分類の微調整を行い、バッチサイズ16および入力パッチ224×224を使用する。
  • 17のラベルを定義し、解剖学的領域(口腔、食道、胃、小腸、結腸、Z線、幽門、回盲弁)および所見(活動性出血、毛細血管拡張、血、びらん、発赤、ヘマチン、リンパ管拡張、ポリープ、潰瘍)をカバーし、Gastro Competition の3本の動画を用いて検証する。
  • 3本の動画のテストセットにおいて、IoU 0.5 での平均適合率は 0.0205、IoU 0.95 で 0.0196 と報告されており、現状このタスクの性能は非常に限定的であることを示している。
  • 本研究は、トランスフォーマーをカプセル内視鏡動画分析へ適用する可能性を示す一方で、医用画像における希少疾患検出を改善するには、より良いデータセットとアーキテクチャの必要性を強調している。