VOLMO：眼科領域のための多用途かつオープンな大規模モデル

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

失明を防ぐための早期眼科検査に向けて、画像・構造化データ・自由記述を統合する既存MLLMは眼科領域で性能が十分でなく、オープンな眼科特化モデルも乏しいことが背景として示された。
VOLMOはモデル非依存かつデータを開放した眼科特化MLLM開発のフレームワークで、(1) 画像—テキスト86,965ペアを用いた眼科知識の事前学習、(2) 12眼疾患のスクリーニング/重症度分類のタスク微調整、(3) 患者症例913件での多段推論までを段階的に行う。
コンパクトな2BパラメータのVOLMO-2Bを学習し、InternVL-2BやLLaVA-Medなど複数の強いベースラインと比較した結果、画像記述、疾患スクリーニング/ステージ分類、評価と管理の生成の各タスクで一貫して優位だった。
12疾患での平均F1が87.4%に達し、年齢関連黄斑変性と糖尿病性網膜症について独立コホートでの外部検証でもより高い評価を得たと報告された。
本研究は眼科臨床ワークフローへの多モーダルLLM適用に向けた再現可能な学習パイプラインを提供し、今後の眼科特化モデル開発の“参照実装”になり得る内容となっている。

要旨: 視覚障害は世界で何百万人もの人々に影響を与えており、不可逆的な視力喪失を防ぐためには早期発見が極めて重要である。眼科のワークフローでは、疾患の重症度や管理を判断するために、医用画像、構造化された臨床データ、自由記述の所見を臨床家が統合する必要があり、これには時間と負担がかかる。近年のマルチモーダル大規模言語モデル（MLLMs）は有望であるが、既存の汎用および医療向けMLLMは眼科領域では性能が低く、さらに眼科専用のMLLMは公に利用できるものがほとんどない。私たちは、眼科専用のMLLMを開発するための、モデル非依存でデータをオープンにした枠組みであるVOLMO（Versatile and Open Large Models for Ophthalmology）を提案する。VOLMOは3つの段階を含む。すなわち、82の学術誌にまたがる26,569本の記事から収集した86,965の画像-テキストペアに対する眼科知識の事前学習；疾患スクリーニングと重症度分類のために、12の眼疾患にまたがる26,929の注釈付き実例に対するドメインタスクの微調整；および、評価、計画、フォローアップケアのための、患者ケースレポート913件に対する多段階の臨床的推論である。この枠組みを用いて、コンパクトな2BパラメータのMLLMを学習し、InternVL-2B、LLaVA-Med-7B、MedGemma-4B、MedGemma-27B、RETFoundを含む強力なベースラインと比較した。これらのモデルを、画像記述生成、疾患スクリーニングおよび病期分類、ならびに評価と管理の生成について評価し、さらに2名の医療専門職による追加の手動レビューと、加齢黄斑変性および糖尿病性網膜症に対する3つの独立コホートでの外部検証を行った。いずれの設定においても、VOLMO-2Bは一貫してベースラインを上回り、より強い画像記述性能を達成し、12の眼疾患における平均F1が87.4%であり、外部検証でもより高いスコアを得た。

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

VOLMO：眼科領域のための多用途かつオープンな大規模モデル

要点

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer