Scaling In-Context Segmentation with Hierarchical Supervision

arXiv cs.CV / 4/15/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • この論文は、医用画像セグメンテーションにおけるIn-Context Learning(ICL)が高解像度画像でスケールしにくい理由として、密なグローバル交差注意が計算量的に非効率である点を指摘している。
  • 著者らはPatchICLという階層的フレームワークを提案し、注目すべき情報領域を選択的にパッチ化しつつ、複数レベルの階層的スーパービジョンで「どこを選ぶか」の学習を明示的に行う。
  • UniverSeg(グローバル注意の強いベースライン)と比べ、PatchICLはin-domainのCTセグメンテーション精度を維持しつつ、512×512解像度で計算量を44%削減できたと報告している。
  • 35のout-of-domainデータセット(多様な画像モダリティ)でも、13のモダリティカテゴリ中6カテゴリでベースラインを上回り、OCTや皮膚鏡のように局所病変が支配的なモダリティで特に強い傾向が示された。
  • 学習・評価コードはGitHubで公開されており、追試や応用が可能になっている。

Abstract

In-context learning (ICL) enables medical image segmentation models to adapt to new anatomical structures from limited examples, reducing the clinical annotation burden. However, standard ICL methods typically rely on dense, global cross-attention, which scales poorly with image resolution. While recent approaches have introduced localized attention mechanisms, they often lack explicit supervision on the selection process, leading to redundant computation in non-informative regions. We propose PatchICL, a hierarchical framework that combines selective image patching with multi-level supervision. Our approach learns to actively identify and attend only to the most informative anatomical regions. Compared to UniverSeg, a strong global-attention baseline, PatchICL achieves competitive in-domain CT segmentation accuracy while reducing compute by 44\% at 512\times512 resolution. On 35 out-of-domain datasets spanning diverse imaging modalities, PatchICL outperforms the baseline on 6 of 13 modality categories, with particular strength on modalities dominated by localized pathology such as OCT and dermoscopy. Training and evaluation code are available at https://github.com/tidiane-camaret/ic_segmentation