Fundus-R1:公開データを用いた知識に配慮した推論により、眼底画像読解のMLLMを学習する
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Fundus-R1は、眼底画像読解のための推論強化型マルチモーダルLLMであり、従来の臨床的に対応づけられた学習データに比べて再現性およびアクセスの障壁を下げることを目的として、完全に公開データセットのみに基づいて学習されています。
- 本手法では、RAGベースの仕組みにより、利用可能なラベルに根拠づけられた眼科領域の知識と視覚的所見を結びつける、画像固有の知識に配慮した推論トレースを自動生成します。
- 推論の信頼性を高めるために、本論文では生成された推論トレースがロールアウトをまたいで自己整合性を保つことを促すプロセス報酬を追加することで、RLVRを強化しています。
- FunBench、Omni-Fundus、GMAI-Fundusでの実験では、Fundus-R1が、汎用モデル(Qwen2.5-VL)や、生成された推論トレースなしで事後学習したバリアントを含むベースラインを上回ることが報告されています。
- この研究は、アクセス不能な院内の臨床サンプルではなく公開データを用いて、より強力な眼底画像読解MLLMを構築するための実行可能な道筋を示唆しています。




