腰椎脊柱管狭窄症診断のための、適応PID-Tversky損失を備えた説明可能ビジョン・ランゲージ・モデルの枠組み

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多視点MRIに基づく腰椎脊柱管狭窄症(LSS)診断を扱い、手作業による負担の大きい読影に起因する遅延や観察者間のばらつきを対象としている。
  • テキストに導かれた空間的に正確な脊椎異常の局在化を行うために、Spatial Patch Cross-Attentionモジュールを用いる、エンドツーエンドの説明可能なビジョン・ランゲージモデルを提案する。
  • 理論制御に着想を得たAdaptive PID-Tversky Lossを導入し、極端なクラス不均衡や、過小に分割された少数クラスのインスタンスに対するペナルティを動的に調整して、より適切に扱えるようにする。
  • 本アプローチは、基盤となるVLMに加えて、セグメンテーション出力を放射線科医スタイルの臨床レポートへ翻訳する自動放射線レポート生成モジュールを組み合わせ、解釈可能性を高める。
  • 報告された結果として、分類精度90.69%、セグメンテーションのマクロ平均Dice係数0.9512、CIDErスコア92.80%が示されており、透明性のある監督型臨床AIの新たなベンチマークであるという主張もある。

Abstract

腰椎脊柱管狭窄症(LSS)の診断は、依然として重要な臨床課題です。診断は、複数ビューの磁気共鳴画像法(MRI)に対する、労力の大きい手作業による解釈に大きく依存しているため、観察者間のばらつきが大きく、診断の遅れも生じます。既存の視覚言語モデルは、臨床セグメンテーションデータセットに顕著な極端なクラス不均衡に同時に対処できないだけでなく、重要な解剖学的階層を破棄してしまうグローバルプーリング機構に主として起因して、空間精度も維持できません。そこで本研究では、これらの制約を克服するためのエンドツーエンドの説明可能な視覚言語モデルの枠組みを提案します。これは、2つの主要な目的によって達成されます。第1に、脊椎の異常を空間的精度を保ったまま、テキストに基づいて正確に局在化できる「空間パッチ・クロスアテンション」モジュールを提案します。第2に、制御理論の原理を統合することで、制御を動的に行いながら学習時の罰則をさらに特別に調整する、新規の「Adaptive PID-Tversky Loss」関数を導入し、困難で過小にセグメント化されたマイノリティのインスタンスに対処します。基盤となるVLMに加え、自動放射線レポート生成モジュールを組み込むことで、本枠組みは大きな性能を示します。診断分類における精度は90.69%であり、セグメンテーションのマクロ平均Diceスコアは0.9512、CIDErスコアは92.80%です。さらに本枠組みは、複雑なセグメンテーション予測を放射線科医のスタイルの臨床レポートへ変換することで説明可能性を示し、重要な人間の監督を維持しつつ診断能力を向上させる、臨床医療画像における透明で解釈可能なAIの新たなベンチマークを確立します。