要旨: 視覚障害は世界で何百万人もの人々に影響を与えており、不可逆的な視力喪失を防ぐためには早期発見が極めて重要である。眼科のワークフローでは、疾患の重症度や管理を判断するために、医用画像、構造化された臨床データ、自由記述の所見を臨床家が統合する必要があり、これには時間と負担がかかる。近年のマルチモーダル大規模言語モデル(MLLMs)は有望であるが、既存の汎用および医療向けMLLMは眼科領域では性能が低く、さらに眼科専用のMLLMは公に利用できるものがほとんどない。私たちは、眼科専用のMLLMを開発するための、モデル非依存でデータをオープンにした枠組みであるVOLMO(Versatile and Open Large Models for Ophthalmology)を提案する。VOLMOは3つの段階を含む。すなわち、82の学術誌にまたがる26,569本の記事から収集した86,965の画像-テキストペアに対する眼科知識の事前学習;疾患スクリーニングと重症度分類のために、12の眼疾患にまたがる26,929の注釈付き実例に対するドメインタスクの微調整;および、評価、計画、フォローアップケアのための、患者ケースレポート913件に対する多段階の臨床的推論である。この枠組みを用いて、コンパクトな2BパラメータのMLLMを学習し、InternVL-2B、LLaVA-Med-7B、MedGemma-4B、MedGemma-27B、RETFoundを含む強力なベースラインと比較した。これらのモデルを、画像記述生成、疾患スクリーニングおよび病期分類、ならびに評価と管理の生成について評価し、さらに2名の医療専門職による追加の手動レビューと、加齢黄斑変性および糖尿病性網膜症に対する3つの独立コホートでの外部検証を行った。いずれの設定においても、VOLMO-2Bは一貫してベースラインを上回り、より強い画像記述性能を達成し、12の眼疾患における平均F1が87.4%であり、外部検証でもより高いスコアを得た。
VOLMO:眼科領域のための多用途かつオープンな大規模モデル
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 失明を防ぐための早期眼科検査に向けて、画像・構造化データ・自由記述を統合する既存MLLMは眼科領域で性能が十分でなく、オープンな眼科特化モデルも乏しいことが背景として示された。
- VOLMOはモデル非依存かつデータを開放した眼科特化MLLM開発のフレームワークで、(1) 画像—テキスト86,965ペアを用いた眼科知識の事前学習、(2) 12眼疾患のスクリーニング/重症度分類のタスク微調整、(3) 患者症例913件での多段推論までを段階的に行う。
- コンパクトな2BパラメータのVOLMO-2Bを学習し、InternVL-2BやLLaVA-Medなど複数の強いベースラインと比較した結果、画像記述、疾患スクリーニング/ステージ分類、評価と管理の生成の各タスクで一貫して優位だった。
- 12疾患での平均F1が87.4%に達し、年齢関連黄斑変性と糖尿病性網膜症について独立コホートでの外部検証でもより高い評価を得たと報告された。
- 本研究は眼科臨床ワークフローへの多モーダルLLM適用に向けた再現可能な学習パイプラインを提供し、今後の眼科特化モデル開発の“参照実装”になり得る内容となっている。