MedQ-Engine: 医用画像品質評価におけるマルチモーダル大規模言語モデルを進化させるための閉ループデータエンジン

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MedQ-Engineは、Med-IQAのためのMLLMを反復的に評価し、データ駆動型クラスタリングによって失敗プロトタイプを発見し、プロトタイプに基づく検索を用いた100万枚の画像プールを活用して注釈付けとファインチューニングを導く、閉ループのパイプラインを導入します。
このシステムはエントロピーに基づくルーティング機構を用いて注釈をトリアージし、ラベリングコストを削減しつつモデルの弱点を標的化します。
5つの医用画像モダリティを対象とした実験では、MedQ-Engineを搭載した約80億パラメータのモデルがGPT-4oを13%以上上回り、人間専門家の性能との差を約4.34%まで縮め、注釈はわずか1万件で、ランダムサンプリングと比較して4倍以上の効率を実現しました。
本手法は、医療モデルの記述的出力におけるコストと適応性の課題に対応し、段階的な人間の介在を伴う注釈と品質保証済みのファインチューニングを通じて自己改善を可能にします。
本論文は、臨床QAタスクにおけるマルチモーダル大規模言語モデルを進化させるためのスケーラブルなフレームワークとしてMedQ-Engineを位置づけており、放射線診断や関連分野におけるAIの導入を加速する可能性があります。

要旨: 医用画像品質評価（Med-IQA）は臨床AIの展開に先立つ前提条件であるが、多模态大規模言語モデル（MLLMs）は依然として人間の専門家には大きく及ばず、特に単純な品質スコアを超える臨床推論を含む記述的評価を提供する必要がある場合にはなおさらである。しかし、それらを改善することは、記述的アノテーションの取得コストの高さと、一度のデータ収集がモデルの進化する弱点に適応できないことによって妨げられている。これらの課題に対処するために、MedQ-Engineを提案する。これはデータ駆動クラスタリングによって失敗のプロトタイプを発見するため、モデルを反復的に評価するクローズドループデータエンジンであり、これらのプロトタイプを検索アンカーとして用い、進行的なヒューマン・イン・ザ・ループのアノテーションとともに、百万規模の画像プールを探索し、品質保証済みの微調整を通じて進化し、自己改善サイクルを形成する。モデルは補完的な知覚タスクと記述タスクで評価される。エントロピー誘導型のルーティング機構はアノテーションを振り分け、ラベリングコストを最小化する。5つの医用画像モダリティにまたがる実験は、MedQ-Engineが80億パラメータのモデルをGPT-4oより13％以上上回り、人間の専門家との差をわずか4.34％に縮め、わずか10,000件のアノテーションを使用して、ランダムサンプリングより4倍以上のサンプル効率を示す。