要約: CLIP様式の視覚言語モデル(VLMs)が自然画像での成功を収めたことは、医療分野の対応を刺激しましたが、既存のアプローチは大きく二つの極端に分類されがちです。単一ドメインデータで学習する専門モデルはドメイン固有の詳細を捉えますが一般化が悪く、複数ドメインデータで学習する汎用医療VLMは広範な意味論を保持しますが、微細な診断手掛かりが希薄になります。この専門化と一般化のトレードオフを橋渡しすることは依然として難題です。この問題に対処するため、ACE-LoRAを提案します。これは、ゼロショット一般化を堅牢に維持する汎用医療VLMのための、パラメータ効率的な適応フレームワークです。ACE-LoRAはLow-Rank Adaptation (LoRA)モジュールを凍結された画像-テキストエンコーダに統合し、Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN)モジュールを導入して、ペアワイズの類似性を超える高次の文脈的相互作用を捉え、局所化された診断手掛かりでグローバルな表現を豊かにします。これにより、従来のParameter-Efficient Fine-Tuning (PEFT)手法が見落としていた微細なディテールという重要な制約に対処します。クロスモーダルの整合性をさらに高めるため、意味的に関連する画像-テキストペア間の偽陰性を効果的に抑制するラベル指向のInfoNCE損失を定式化します。わずか0.95Mの学習可能パラメータを追加するだけで、ACE-LoRAはゼロショット分類、セグメンテーション、検出のベンチマークを横断する複数のドメインで、最先端の医療VLMおよびPEFTのベースラインを一貫して上回ります。私たちのコードは https://github.com/icon-lab/ACE-LoRA にあります。
ACE-LoRA: 医療ビジョン-言語モデルのパラメータ効率的適応のためのグラフアテンション型文脈強化
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ACE-LoRA は、凍結済みの画像-テキストエンコーダに Low-Rank Adaptation (LoRA) モジュールを組み込み、医療 VLMs の高次の文脈相互作用を捉えるための注意機構ベースの文脈強化ハイパーグラフニューラルネットワーク(ACE-HGNN)を導入します。
- ラベル誘導型 InfoNCE 損失を用い、意味的に関連する画像-テキスト対の間の偽陰性を抑制することにより、クロスモーダル整合性を向上させます。
- このアプローチは、複数の医療ドメインにまたがる堅牢なゼロショット一般化を維持しつつ、微細な診断手掛かりを保持することで、専門化と一般化のトレードオフに対処します。
- 約0.95百万の学習可能パラメータしかないにもかかわらず、ACE-LoRA はゼロショット分類、セグメンテーション、検出の分野で最先端の医療 VLMs および PEFT ベースラインを上回ると報告されており、そのコードは GitHub で公開されています。
