Abstract
大規模視覚言語モデル(VLM)は一般的なベンチマークで優れた性能を発揮しますが、医用画像ではしばしば頑健性に欠けます。そこでは、異質な教師信号によってデータセット間の干渉が生じ、さらにデータ体制(すなわち、教師信号がどのように混合されるか)への感度が高いからです。現実的な臨床ワークフローでは、データとタスクが逐次的に到着するため、素朴な継続学習を行うと、さらに壊滅的忘却が起こります。これらの課題に対処するために、我々はベースとなるアーキテクチャを変更することなく、低ランク更新をフルランクの完全微調整MoEに整合させる、理論的に根拠づけられたスケーリング則と、スペクトル経路選択型のMixture-of-Experts(MoE)を結合したパラメータ効率の高い医用VLMであるMedQwenを提案します。具体的には、各エキスパートを事前学習済み重みの非重複な特異値分解(SVD)セグメントから初期化し、残差補償とスケーリングの仕組みを導入することで、分布シフト下でも安定したエキスパートの専門化と一貫したルーティングを可能にします。視覚質問応答、レポート生成、放射線分類、幻覚(ハルシネーション)抑制をカバーする23の医用データセットにおいて、MedQwenは強力で信頼性の高い性能を達成します。ゼロショット分類では、339 imes少ない学習可能パラメータでフル微調整に近い精度を示し、強力なベースラインが>20-50
%で悪化するのに対して、逐次忘却を
b{約}5
backslash{\%}までに抑えます。