要旨: 過去10年間で、生成モデルは眼底画像の改善において成功を収めてきました。しかし、これらのモデルの評価は依然として課題です。眼底画像の改善のためのベンチマークが必要である理由は、主に次の3点です。:(1) PSNRやSSIMのような従来のデノイズ指標では、病変の保持や血管形態の一貫性などの臨床的に関連する特徴を捉えられず、実運用の場面での適用性が制限されます。(2) 対応(paired)および非対応(unpaired)の改善手法の両方を扱い、特に臨床的知見により導かれた手法を対象とする統一的な評価プロトコルが不足しています。(3) 評価フレームワークは、将来の臨床に整合した改善モデルの発展を導くための、実行可能な洞察を提供すべきです。これらのギャップに対処するために、私たちはEyeBench-V2を導入します。これは、改善モデルの性能と臨床的有用性とのギャップを埋めることを目的としたベンチマークです。私たちの研究は、次の3つの主要な貢献を提供します。:(1) 下流評価による多次元の臨床的整合: 標準的な改善指標に加えて、血管セグメンテーション、糖尿病網膜症(DR)のグレーディング、未見のノイズパターンへの汎化、病変セグメンテーションといった臨床的に意味のあるタスクにわたって性能を評価します。(2) 専門家主導の評価設計: 私たちは、対応・非対応の改善手法間の公平な比較を可能にするための新しいデータセットを厳選し、さらに医療専門家による構造化された手動評価プロトコルを付帯します。これは、病変構造の変化、背景色の変化、人工構造の導入といった、臨床的に重要な側面を評価します。(3) 実行可能な洞察: 私たちのベンチマークは、既存の生成モデルをタスク指向で厳密に分析し、臨床研究者が十分な根拠に基づいて情報に基づく判断を行えるようにすると同時に、次世代の改善モデルの設計に資するために、現在の手法の限界も明らかにします。
修復と診断をつなぐ:網膜眼底強調のための包括的ベンチマーク
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的なPSNR/SSIM以外の臨床的に関連する指標を用いて、網膜眼底画像強調のための生成モデルをより適切に評価するためのEyeBench-V2を提案する。
- 対応の評価におけるギャップを、ペアありおよびペアなしの強調手法の双方を対象とした統一プロトコルの導入によって埋め、臨床的専門知識に基づく方法も含める。
- EyeBench-V2では、血管セグメンテーション、糖尿病網膜症(DR)グレーディング、病変セグメンテーション、未見のノイズパターンに対する頑健性といった多次元の下流評価を追加する。
- ベンチマークには、専門家が厳選したデータセットと、病変の構造変化、背景色の変化、人工的な構造アーティファクトのような臨床的に重大な問題を検出するための、構造化された医療専門家によるマニュアル評価が含まれる。
- 著者らは、研究者が適切なモデルを選択でき、今後の開発を臨床に整合した強調システムへ導くための、実行可能でタスク指向の洞察を提供することを目指している。




