言語誘導による肺スクリーニングのためのセマンティック・トポロジカル・グラフ推論

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、臨床テキストにおける曖昧さや、低コントラスト画像における重なり合う解剖学的構造に対処することを目的として、言語誘導型肺スクリーニングのためのセマンティック・トポロジカル・グラフ推論(STGR)フレームワークを提案する。
  • STGRは、推論に大規模言語モデル(LLaMA-3-V)を、ゼロショットでのマスク領域抽出に視覚基盤モデル(MedSAM)を用い、さらに自由テキストから診断上の手がかりを抽出するText-to-Vision Intent Distillation(TVID)モジュールを組み合わせる。
  • マスク選択を、動的グラフ推論タスクとして定式化し、候補となる病変をノードとして表現し、空間的・意味的なエッジを用いて複雑な解剖学を解きほぐす。
  • 医療データが限られる状況での過学習を抑えつつ実運用を支えるため、著者らはSelective Asymmetric Fine-Tuning(SAFT)を導入し、更新するモデルパラメータを1%未満に抑える。
  • LIDC-IDRIおよびLNDbに対して5-foldクロスバリデーションを行った実験では、新たな最先端(state of the art)を達成した。例えば、LIDC-IDRIでDice Similarity Coefficientが81.5%であり、LLMベースラインより改善し、さらに各fold間での安定性も良好である。

要旨: 自由記述の臨床指示にもとづく医用画像セグメンテーションは、コンピュータ支援診断における重要な最前線である。しかし、既存のマルチモーダルおよび基盤モデルは、臨床レポートに含まれる意味の曖昧さに対して苦戦し、さらに低コントラスト画像における複雑な解剖学的重なりを十分に切り分けられない。加えて、限られた医療データセット上でこれらの巨大なアーキテクチャを全面的に微調整すると、必ず厳しい過学習が生じる。これらの課題に対処するために、言語に導かれる肺スクリーニングのための新しいセマンティック-トポロジカル・グラフ推論(STGR)フレームワークを提案する。本手法は、大規模言語モデル(LLaMA-3-V)の推論能力と、視覚基盤モデル(MedSAM)のゼロショットによる輪郭抽出とを、巧みに相乗させる。具体的には、精密な診断ガイダンスを抽出するText-to-Vision Intent Distillation(TVID)モジュールを導入する。解剖学的な曖昧さを解消するために、マスク選択を動的グラフ推論問題として定式化し、候補病変をノードとしてモデル化し、エッジで空間的および意味的な親和性を捉える。実運用の実現可能性を確保するために、1%未満のパラメータのみを更新するSelectively Asymmetric Fine-Tuning(SAFT)戦略を導入する。LIDC-IDRIおよびLNDbデータセットに対する厳密な5-fold交差検証により、本フレームワークが新たな最先端の状態を確立することが示される。特に、LIDC-IDRIで81.5%のDice Similarity Coefficient(DSC)を達成し、LISAのような主要なLLMベースツールを5%以上上回る。決定的には、我々のSAFT戦略は強力な正則化として機能し、非常に優れたクロスフォールド安定性(DSC分散0.6%)を生み出し、頑健で状況(コンテキスト)に応じた臨床導入への道を開く。