Fundus-R1:公開データを用いた知識に配慮した推論により、眼底画像読解のMLLMを学習する

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Fundus-R1は、眼底画像読解のための推論強化型マルチモーダルLLMであり、従来の臨床的に対応づけられた学習データに比べて再現性およびアクセスの障壁を下げることを目的として、完全に公開データセットのみに基づいて学習されています。
  • 本手法では、RAGベースの仕組みにより、利用可能なラベルに根拠づけられた眼科領域の知識と視覚的所見を結びつける、画像固有の知識に配慮した推論トレースを自動生成します。
  • 推論の信頼性を高めるために、本論文では生成された推論トレースがロールアウトをまたいで自己整合性を保つことを促すプロセス報酬を追加することで、RLVRを強化しています。
  • FunBench、Omni-Fundus、GMAI-Fundusでの実験では、Fundus-R1が、汎用モデル(Qwen2.5-VL)や、生成された推論トレースなしで事後学習したバリアントを含むベースラインを上回ることが報告されています。
  • この研究は、アクセス不能な院内の臨床サンプルではなく公開データを用いて、より強力な眼底画像読解MLLMを構築するための実行可能な道筋を示唆しています。

Abstract

CFP、OCT、UWF のような眼底画像撮影は、網膜の異常や疾患の早期検出にとって重要です。知識集約的であることから、眼底画像の理解は挑戦的な視覚言語タスクを生み出します。このタスクに対処するための新しいアプローチとして、汎用のマルチモーダル大規模言語モデル(MLLM)を、教師あり微調整(SFT)または検証可能な報酬を伴う強化学習(RLVR)によって、社内で大量に用意したサンプルと高品質な臨床レポートのペアで事後学習(post-train)する方法が挙げられます。しかし、これらの貴重なサンプルは公開されていないため、再現性を妨げるだけでなく、実際には研究が限られた数のプレイヤーに実質的に制限されてしまいます。この障壁を克服するために、私たちは、公開データセットのみを用いて推論能力を強化した眼底読解 MLLM を訓練する新しい試みを行い、これを Fundus-R1 と呼びます。このとき、データの 94%以上が画像レベルのラベルのみで注釈付けされています。技術的貢献は 2 つです。第一に、RAG ベースの手法を提案し、画像固有で知識に配慮した推論トレースを構成します。こうして自動生成されたトレースは、汎用 MLLM によって同定された視覚的所見を、眼科的な知識の観点から画像ラベルへと結び付けます。第二に、生成された推論トレースの各ロールアウトにおける自己一貫性を促すプロセス報酬によって RLVR を強化します。FunBench、Omni-Fundus、GMAI-Fundus の 3 つの眼底読解ベンチマークに関する大規模な実験により、Fundus-R1 は、汎用版(Qwen2.5-VL)や、生成されたトレースを使用せずに事後学習されたより強力な版を含む複数のベースラインを明確に上回ることが示されます。本研究は、公的に利用可能なデータで強力な眼底読解 MLLM を訓練する道を切り拓きます。

Fundus-R1:公開データを用いた知識に配慮した推論により、眼底画像読解のMLLMを学習する | AI Navigate