階層的スーパービジョンによるIn-Contextセグメンテーションのスケーリング

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医用画像セグメンテーションにおけるIn-Context Learning（ICL）が高解像度画像でスケールしにくい理由として、密なグローバル交差注意が計算量的に非効率である点を指摘している。
著者らはPatchICLという階層的フレームワークを提案し、注目すべき情報領域を選択的にパッチ化しつつ、複数レベルの階層的スーパービジョンで「どこを選ぶか」の学習を明示的に行う。
UniverSeg（グローバル注意の強いベースライン）と比べ、PatchICLはin-domainのCTセグメンテーション精度を維持しつつ、512×512解像度で計算量を44%削減できたと報告している。
35のout-of-domainデータセット（多様な画像モダリティ）でも、13のモダリティカテゴリ中6カテゴリでベースラインを上回り、OCTや皮膚鏡のように局所病変が支配的なモダリティで特に強い傾向が示された。
学習・評価コードはGitHubで公開されており、追試や応用が可能になっている。

概要: 文脈内学習（ICL）により、医用画像セグメンテーションモデルは限られた例から新しい解剖学的構造へ適応でき、臨床での注釈作業の負担を軽減します。しかし、標準的なICL手法は一般に高密度でグローバルなクロスアテンションに依存しており、画像解像度に対して計算量が大きく増加します。近年、局所化された注意機構を導入した手法もありますが、選択プロセスに対する明示的な監督が欠けていることが多く、その結果として情報を持たない領域で冗長な計算が発生します。本研究では、選択的な画像パッチングと多レベルの監督を組み合わせた階層的枠組み「PatchICL」を提案します。提案手法は、最も情報量の多い解剖学的領域のみを能動的に特定し注意を向けることを学習します。グローバル・アテンション基線であるUniverSegと比較して、PatchICLは、 $512\times512$ の解像度において計算量を44\%削減しつつ、同等のドメイン内CTセグメンテーション精度を達成します。また、多様な画像モダリティにまたがる35のドメイン外データセットにおいて、PatchICLは13のモダリティカテゴリのうち6で基線を上回り、OCTやダーマスコピーのように局所的な病変が支配的なモダリティで特に強みを示します。学習および評価のコードは https://github.com/tidiane-camaret/ic_segmentation で利用可能です