放射線科医のように見る：胸部X線に対する文脈・視線誘導型の視覚言語事前学習

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、胸部X線に対する現在の医療ビジョン言語の事前学習が、放射線画像を文脈非依存として扱い、診断時に用いられる放射線科医の視線パターンをほとんど無視しているため、限界があると主張する。
文脈および視線誘導型の事前学習フレームワークであるCoGazeを提案し、文脈を注入したビジョンエンコーダ、多層のセマンティック整合（アラインメント）目的、疾患に対応したクロスモーダル事前知識を追加する。
CoGazeは、放射線科医の視線を確率的な事前知識（prior）として用い、診断上重要な領域へモデルの注意（アテンション）を誘導することで、実際の診断プロセスをより正確に反映することを目指す。
実験結果では、自由文／構造化レポート生成、ゼロショット分類のAUROC、画像とテキストの検索指標など、複数のタスクにおいて、最先端手法（state of the art）に対して一貫した改善が示されている。
著者らは再現性およびさらなる検証のために、CoGazeアプローチのコードを公開している。

Abstract

医療の視覚-言語事前学習における最近の進歩にもかかわらず、既存のモデルは診断ワークフローを捉えることに依然として苦戦している。X線写真は通常、文脈非依存の画像として扱われる一方で、視覚推論における重要な手がかりである放射線科医の注視（gaze）は、既存手法によってほとんど探究されていない。これらの制約は、疾患固有のパターンのモデリングを妨げ、モダリティ間の整合性を弱める。そこで本研究では、胸部X線向けの、文脈および注視に導かれる視覚-言語事前学習フレームワークであるCoGazeを提案する。まず、放射線科医が、患者の既往歴、症状、診断意図などの臨床的文脈をどのように統合して診断推論を導くかをモデル化する、文脈注入型の視覚エンコーダを提案する。次に、多層の教師あり学習パラダイムを提示する。(1) ハイブリッドなポジティブ対照学習により、モダリティ内およびモダリティ間の意味的整合性を強制し、(2) 疾患を意識したモダリティ間表現学習によって診断上の事前知識を注入し、(3) 放射線科医の注視を確率的な事前知識として用いて、診断にとって重要な領域へ注意を導く。大規模な実験の結果、CoGazeは多様なタスクにわたって一貫して最先端手法を上回り、自由記述および構造化レポート生成でそれぞれ最大+2.0%のCheXbertF1、+1.2%のBLEU2、ゼロショット分類で+23.2%のAUROC、画像-テキスト検索で+12.2%のPrecision@1を達成する。コードは https://github.com/mk-runner/CoGaze で公開している。