網膜知識に基づくダイナミックなマルチレベル特徴統合による眼底画像ベースの緑内障スクリーニング

arXiv cs.CV / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、色眼底写真に対する知識誘導型の緑内障スクリーニング枠組みを提案し、不均一な臨床データセットにおける純粋にデータ駆動型の深層学習モデルの限界に対処する。
三分岐（トライブランチ）アーキテクチャを用いて、固定された解剖学的領域に依存するのではなく、網膜の全体的な文脈、視神経乳頭／カップの構造的特徴、そして動的に局所化される病理的手掛かりを統合する。
診断に有益な画像領域を適応的に特定する「ダイナミック・ウィンドウ機構」を導入し、病理所見があらかじめ定義された領域の外に現れる場合の信頼性を向上させる。
「知識強化畳み込み注意（Knowledge-Enhanced Convolutional Attention）」モジュールにより、網膜の解剖学的事前知識を組み込む。これは、事前学習済みのファウンデーションモデルから抽出した事前知識を用いて注意学習を導く。
AIROGSデータセットでの実験では、AUCが98.5%、精度が94.6%と報告されており、さらにSMDG-19での複数データセットによる検証でも強いドメイン間一般化が示される。

要旨: カラー眼底写真に基づく自動診断は、大規模な緑内障スクリーニングにとって不可欠です。しかし、既存の深層学習モデルは一般にデータ駆動型であり、網膜の解剖学的知識を明示的に統合していないため、不均一な臨床データセットに対する頑健性が制限されます。さらに、眼底画像における病理学的手がかりは、あらかじめ定義された解剖学的領域を超えて現れることがあり、固定領域での特徴抽出では信頼できる診断を行うのに不十分です。これらの課題に対処するため、本研究では、動的なマルチスケール特徴学習と領域固有の網膜プライア（事前知識）を統合した、網膜知識志向の緑内障スクリーニングの枠組みを提案します。この枠組みは補完的な網膜表現を捉えるために3枝（トライブランチ）構造を採用し、全体的な網膜コンテキスト、視神経乳頭／陥凹の構造的特徴、そして動的に局在化された病理領域を含みます。診断に有益な領域を適応的に特定するためのダイナミック・ウィンドウ・メカニズムを設計し、また、知識強化畳み込み注意モジュールでは、事前学習済みの基盤モデルから抽出した網膜プライアを取り込み、注意の学習を導きます。大規模データセットであるAIROGSに対する大規模な実験により、提案手法が多様なベースラインを上回り、AUCは98.5%、精度は94.6%を達成することが示されました。さらに、SMDG-19ベンチマークの複数のデータセットでの追加評価により、その強力なドメイン間一般化能力が確認されました。すなわち、知識に導かれた注意と適応的な病変の局在化を組み合わせることで、自動緑内障スクリーニングシステムの頑健性を大幅に向上できることが示唆されます。