臨床要因を用いたプロンプト整合性の検討：NSCLC腫瘍セグメンテーション向けのゼロショット・セグメンテーションVLM

arXiv cs.CV / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、ゼロショットの視覚言語モデル（VoxTell）がNSCLCのGTV（総腫瘍体積）セグメンテーションにおいて空間的ふるまいを制御する際、どのプロンプト次元が最も強く効くかを調べた。
サブプロンプト分解、属性ごとの擾乱に対する頑健性、特異性ラダー、交差ケースでのプロンプト入れ替えといった手法により、VoxTellの空間アテンションの主因は解剖学的位置であることが示され、位置を変えるとしばしば致命的に性能が落ちる。
関係のないプロンプトでは適切にゼロのセグメンテーションが返り、一般→詳細な記述へとプロンプトを特異化すると概ね改善する一方で、診断情報のみのプロンプトは例外的な挙動を示す。
交差ケースでのプロンプト入れ替えにより、患者ごとの条件付けが確認され、同一患者では大幅に高いDiceが得られることから、モデルが症例固有の空間文脈を取り込んでいる可能性が示唆された。
VoxTellは完全ゼロショットで平均DiceがnnUNetと統計的に同等である一方、他のゼロショット基準より有意に優れており、Diceだけでなく「どのプロンプト次元に整合しているか」も評価すべきだと主張する。