Abstract
多ラベル眼底診断では、微細な病変と大域的な網膜構造の両方を捉える特徴が必要である。多くのマルチスケール医用ビジョンモデルは、明示的な周波数分解によってこの課題に対処しているが、我々のアブレーション研究では、この設定においてそのようなヒューリスティックが得られる利点は限定的であることが示されている。提案する単純なデュアル解像度ステムをOctave Convolutionに置き換えると、パラメータが35%増加し、計算量は2.23倍に増えるにもかかわらず、平均精度は向上しない。一方で、固定のウェーブレットベース変種は大幅に劣る結果となった。
これらの知見に動機づけられ、我々はClifford-Mを提案する。Clifford-Mは、フィードフォワードの拡張モジュールと周波数分割モジュールの両方を、疎な幾何学的相互作用で置き換える軽量バックボーンである。このモデルは、線形複雑度で整合(アラインメント)と構造変動を共同で捉える、Cliffordスタイルのローリング積に基づいて構築されており、コンパクトなデュアル解像度アーキテクチャ上で効率的なクロススケール融合と自己洗練(self-refinement)を可能にする。事前学習なしで、Clifford-MはODIR-5Kにおいて、平均AUC-ROCが0.8142、平均マクロF1(最適閾値)が0.5481を達成する。さらに、0.85Mのパラメータのみを用いており、同一の学習プロトコル下でより実質的に大きいミッドスケールCNNベースラインを大きく上回る。微調整なしでRFMiDに評価すると、マクロAUCが0.7425 +/- 0.0198、マイクロAUCが0.7610 +/- 0.0344となり、データセット間のシフトに対して適度な頑健性があることが示される。
これらの結果は、主要な特徴の相互作用がマルチスケール構造を直接捉えるように設計されているならば、明示的な周波数エンジニアリングを行わずとも競争力のある効率的な眼底診断が実現できることを示唆している。