医療指示に従うための大規模ビジョン言語モデルの指示なしチューニング
arXiv cs.CV / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、医療領域における大規模ビジョン言語モデルの指示なしチューニングを提案する。これは、厳選された画像-指示-出力データの代わりに、画像説明ペアで訓練する方法である。
- 手作りの指示を代替するモーメンタム代理指示を導入し、推論時のパラメータ更新を誘導する一方で、指示に従う挙動を保持する。
- 応答シャッフル戦略を追加して、前の語への過度の依存を減らし、より堅牢なファインチューニングを実現する。
- 本手法は、複数の選択肢型視覚質問応答ベンチマーク(SKINCON、WBCAtt、CBIS、MIMIC-CXR)において最先端の精度を達成し、医療LVLMのファインチューニング効率の向上を示している。
- このアプローチは、医療指示遂行のための LVLM の適応を容易にし、専門家作成データセットへの依存を減らすことで、参入障壁を低減する。
