両眼(OU)超広角眼底画像による高度近視診断のためのコプラ強化ビジョントランスフォーマー

arXiv cs.CV / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、両眼(OU)の超広角眼底画像から「両眼での高度近視の診断(2値)」と「眼軸長(連続値)の予測」の2つを同時に行うAI支援スクリーニングを目的としている。
  • そのために、基盤となるビジョントランスフォーマーモデルへ残差アダプタを導入し、2眼間の類似性と異質性の両方を捉える設計を提案している。
  • 出力が2値と連続値の混在となるマルチタスク学習に対して、条件付き依存関係をガウスコプラ尤度で表す4次元コプラ損失を導入し、PyTorchで実装可能にしている。
  • コプラパラメータ推定のために、計算効率の高いfast Monte Carlo Expectation Maximization(fMCEM)アルゴリズムを開発し、マルチタスクの過学習問題として定義した「stronger covariance phenomenon」に対して数値安定性を理論的に示している。
  • 注釈付きのOU超広角眼底画像データセットと合成データでの評価により、提案手法が分類・回帰の両タスクで予測性能を安定して向上させることを示している。

Abstract

AI支援の近視スクリーニングの進展には、両眼(OU)の高度近視(HM)状態の同時診断と、眼軸長(AL)の予測が必要となる。この臨床的要請により、両眼(OU)の画像共変量を伴う、複雑な混合型(2値-連続)のマルチタスク学習課題が生じ、2つの主要な課題が提示される。すなわち、i)最先端の基盤モデルの中でOU画像の眼間非対称性を捉えること;ii)画像共変量が与えられたときの、混合型の多変量応答間の条件付き依存構造をモデル化し推定すること。これらの課題に対し、次のように対応する。i)Vision Transformerの基盤モデルに残差アダプタを課し、OUの類似性と異質性を同時に捉えること;ii)ガウスコピュラ尤度に対する潜在変数表現に基づいて、PyTorchで実装可能な4次元コピュラ損失を開発し、さらにコピュラ母数を推定するための計算効率の高い高速モンテカルロ期待値最大化(fMCEM)アルゴリズムを提案する。さらに、マルチタスク学習における「強い共分散現象」と呼ばれる特定の過学習問題を定式化する。この現象がコピュラ母数の推定に及ぼす妨害を明らかにし、理論的に、提案するfMCEMアルゴリズムがその妨害に対して数値的に安定であることを示す。我々が注釈付けしたOU超広視野眼底画像データセットへの適用と、合成データ上でのシミュレーションにより、本手法が分類および回帰の両方のタスクにおいて予測能力を安定して向上させることを示す。