T-Gated Adapter: 低コストな時間的アダプタによる視覚言語医療セグメンテーション

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2Dスライスを独立に扱うのではなく、**隣接スライスの文脈**を取り込むことで**視覚言語医療セグメンテーション**を改善するための、軽量な**T-Gated Adapter**を提案する。
時間情報を、固定長のコンテキストウィンドウ上で動作する時間変換器により**視覚トークンレベル**で注入し、さらに空間的なリファインメントブロックと、時間的特徴と単一スライス特徴のバランスを取る**適応的ゲーティング機構**を併用する。
**30のラベル付きFLARE22ボリューム**で学習することで、腹部臓器セグメンテーションが向上し、平均Diceが**0.704**に達し、時間的文脈を持たないベースラインVLMに対して**+0.206**の改善となる。
**ゼロショットのクロスデータセット**評価（BTCV、AMOS22）では、安定した改善（**+0.210**、**+0.230**）が見られ、平均のドメイン間性能低下を**38.0%から24.9%**へと抑える。
**AMOS22のMRI**に対するクロスモダリティ評価で、MRIの教師信号なしに平均Diceが**0.366**となり、完全教師ありのCTのみ3Dベースライン（DynUNet: **0.224**）を上回る。これは、CLIPスタイルの視覚的意味論がモダリティ間でより強く汎化することを示唆する。