広告

Sparse Spectral LoRA:医療VLM向けのルーティング型エキスパート

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、異種の医療データセットや逐次的な臨床タスクに対する頑健性を高めることを目的とした、パラメータ効率の良い医療向けビジョン・言語モデル「MedQwen」を提案する。
  • スペクトル的にルーティングされるMixture-of-Experts(MoE)を、低ランク(LoRAスタイル)のエキスパート更新を、完全微調整したMoEと整合させるための理論的に裏付けられたスケーリング則と組み合わせ、基盤となるアーキテクチャは変更せずに実現する。
  • 専門家(エキスパート)は、事前学習済み重みの非重複SVDセグメントを用いて初期化し、残差による補償とスケーリングを加えることで、安定した専門化と、分布シフト下でもより一貫したルーティングを促進する。
  • 23の医療データセットでの実験(VQA、レポート生成、分類、ハルシネーション抑制をカバー)では、強い信頼性が示され、ゼロショット分類では学習可能パラメータ数を339分の1にした場合でも、完全微調整に近い性能を達成する。
  • 本手法は逐次学習における壊滅的忘却を大幅に低減し、強力なベースラインで20〜50%超の劣化が見られるのに対して、忘却率は約5%程度に抑えられる。

Abstract

大規模視覚言語モデル(VLM)は一般的なベンチマークで優れた性能を発揮しますが、医用画像ではしばしば頑健性に欠けます。そこでは、異質な教師信号によってデータセット間の干渉が生じ、さらにデータ体制(すなわち、教師信号がどのように混合されるか)への感度が高いからです。現実的な臨床ワークフローでは、データとタスクが逐次的に到着するため、素朴な継続学習を行うと、さらに壊滅的忘却が起こります。これらの課題に対処するために、我々はベースとなるアーキテクチャを変更することなく、低ランク更新をフルランクの完全微調整MoEに整合させる、理論的に根拠づけられたスケーリング則と、スペクトル経路選択型のMixture-of-Experts(MoE)を結合したパラメータ効率の高い医用VLMであるMedQwenを提案します。具体的には、各エキスパートを事前学習済み重みの非重複な特異値分解(SVD)セグメントから初期化し、残差補償とスケーリングの仕組みを導入することで、分布シフト下でも安定したエキスパートの専門化と一貫したルーティングを可能にします。視覚質問応答、レポート生成、放射線分類、幻覚(ハルシネーション)抑制をカバーする23の医用データセットにおいて、MedQwenは強力で信頼性の高い性能を達成します。ゼロショット分類では、339 imes少ない学習可能パラメータでフル微調整に近い精度を示し、強力なベースラインが>20-50 %で悪化するのに対して、逐次忘却を b{約}5 backslash{\%}までに抑えます。

広告