放射線科医のように見る:胸部X線に対する文脈・視線誘導型の視覚言語事前学習
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、胸部X線に対する現在の医療ビジョン言語の事前学習が、放射線画像を文脈非依存として扱い、診断時に用いられる放射線科医の視線パターンをほとんど無視しているため、限界があると主張する。
- 文脈および視線誘導型の事前学習フレームワークであるCoGazeを提案し、文脈を注入したビジョンエンコーダ、多層のセマンティック整合(アラインメント)目的、疾患に対応したクロスモーダル事前知識を追加する。
- CoGazeは、放射線科医の視線を確率的な事前知識(prior)として用い、診断上重要な領域へモデルの注意(アテンション)を誘導することで、実際の診断プロセスをより正確に反映することを目指す。
- 実験結果では、自由文/構造化レポート生成、ゼロショット分類のAUROC、画像とテキストの検索指標など、複数のタスクにおいて、最先端手法(state of the art)に対して一貫した改善が示されている。
- 著者らは再現性およびさらなる検証のために、CoGazeアプローチのコードを公開している。



