医療指示に従うための大規模ビジョン言語モデルの指示なしチューニング

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、医療領域における大規模ビジョン言語モデルの指示なしチューニングを提案する。これは、厳選された画像-指示-出力データの代わりに、画像説明ペアで訓練する方法である。
  • 手作りの指示を代替するモーメンタム代理指示を導入し、推論時のパラメータ更新を誘導する一方で、指示に従う挙動を保持する。
  • 応答シャッフル戦略を追加して、前の語への過度の依存を減らし、より堅牢なファインチューニングを実現する。
  • 本手法は、複数の選択肢型視覚質問応答ベンチマーク(SKINCON、WBCAtt、CBIS、MIMIC-CXR)において最先端の精度を達成し、医療LVLMのファインチューニング効率の向上を示している。
  • このアプローチは、医療指示遂行のための LVLM の適応を容易にし、専門家作成データセットへの依存を減らすことで、参入障壁を低減する。

Abstract

大規模ビジョン言語モデル(LVLMs)は、さまざまなタスクにおいて顕著な性能を示しています。これらの能力は主に、厳選された画像-指示-出力のトリプレットから構成されるデータセット上でモデルをファインチューニングするビジュアル指示チューニングに起因します。しかし、医療分野では、高度な専門知識が必要となるため、大規模で高品質な指示データセットを構築することは特に困難です。この問題に対処するため、手作業で作成された指示への依存を減らし、ファインチューニングには画像説明ペアのみを活用する「指示なしチューニング」手法を提案します。具体的には、厳選されたテキスト指示の代替としてモーメンタム・プロキシ指示を導入し、事前学習済みの LVLM の指示追従能力を保持しつつ、推論時にも有効なパラメータの更新を促進します。その結果、ファインチューニングされた LVLM は、明示的な指示がファインチューニング時に欠如していても、ドメイン固有の指示に柔軟に応答できます。さらに、モデルが前の語に過度に依存するのを緩和するため、応答シャッフル戦略を組み込み、より効果的なファインチューニングを促進します。我々のアプローチは、SKINCON、WBCAtt、CBIS、MIMIC-CXRデータセットにおける多肢択一の視覚質問応答タスクで最先端の精度を達成し、医療分野における LVLM のファインチューニング効率を大幅に向上させます。