Fundus-R1：公開データを用いた知識に配慮した推論により、眼底画像読解のMLLMを学習する

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Fundus-R1は、眼底画像読解のための推論強化型マルチモーダルLLMであり、従来の臨床的に対応づけられた学習データに比べて再現性およびアクセスの障壁を下げることを目的として、完全に公開データセットのみに基づいて学習されています。
本手法では、RAGベースの仕組みにより、利用可能なラベルに根拠づけられた眼科領域の知識と視覚的所見を結びつける、画像固有の知識に配慮した推論トレースを自動生成します。
推論の信頼性を高めるために、本論文では生成された推論トレースがロールアウトをまたいで自己整合性を保つことを促すプロセス報酬を追加することで、RLVRを強化しています。
FunBench、Omni-Fundus、GMAI-Fundusでの実験では、Fundus-R1が、汎用モデル（Qwen2.5-VL）や、生成された推論トレースなしで事後学習したバリアントを含むベースラインを上回ることが報告されています。
この研究は、アクセス不能な院内の臨床サンプルではなく公開データを用いて、より強力な眼底画像読解MLLMを構築するための実行可能な道筋を示唆しています。

Abstract

CFP、OCT、UWF のような眼底画像撮影は、網膜の異常や疾患の早期検出にとって重要です。知識集約的であることから、眼底画像の理解は挑戦的な視覚言語タスクを生み出します。このタスクに対処するための新しいアプローチとして、汎用のマルチモーダル大規模言語モデル（MLLM）を、教師あり微調整（SFT）または検証可能な報酬を伴う強化学習（RLVR）によって、社内で大量に用意したサンプルと高品質な臨床レポートのペアで事後学習（post-train）する方法が挙げられます。しかし、これらの貴重なサンプルは公開されていないため、再現性を妨げるだけでなく、実際には研究が限られた数のプレイヤーに実質的に制限されてしまいます。この障壁を克服するために、私たちは、公開データセットのみを用いて推論能力を強化した眼底読解 MLLM を訓練する新しい試みを行い、これを Fundus-R1 と呼びます。このとき、データの 94%以上が画像レベルのラベルのみで注釈付けされています。技術的貢献は 2 つです。第一に、RAG ベースの手法を提案し、画像固有で知識に配慮した推論トレースを構成します。こうして自動生成されたトレースは、汎用 MLLM によって同定された視覚的所見を、眼科的な知識の観点から画像ラベルへと結び付けます。第二に、生成された推論トレースの各ロールアウトにおける自己一貫性を促すプロセス報酬によって RLVR を強化します。FunBench、Omni-Fundus、GMAI-Fundus の 3 つの眼底読解ベンチマークに関する大規模な実験により、Fundus-R1 は、汎用版（Qwen2.5-VL）や、生成されたトレースを使用せずに事後学習されたより強力な版を含む複数のベースラインを明確に上回ることが示されます。本研究は、公的に利用可能なデータで強力な眼底読解 MLLM を訓練する道を切り拓きます。

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

Fundus-R1：公開データを用いた知識に配慮した推論により、眼底画像読解のMLLMを学習する

要点

Abstract

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ