多用途な脳MRIタスクのための視覚インストラクションによる微調整言語モデル

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキストから画像を生成する用途に限られたモデルではなく、複数の臨床的に重要な脳MRIタスクに対応するための、視覚インストラクションによる微調整言語モデル「LLaBIT」を提案する。
画像トークン化により生じる空間情報の損失に対処するため、画像エンコーダからの特徴マップを再利用し、臨床的に重要な空間的詳細を保持する。
脳MRI画像とテキストの対応データが乏しいという課題に対して、著者らは厳密に定義された事前指示に従ってLLMを用い、データ拡張の一貫性を保つ追加テキストデータを生成する。
LLaBITは4つのタスク――レポート生成、視覚質問応答、画像セグメンテーション、画像翻訳――にわたり、5つの脳MRIデータセットで評価され、その結果は、汎用モデルおよびタスク固有の専用モデルの両方に対して優れた性能を示す。
本研究は、単一の多用途な汎用マルチモーダル言語モデルによって多様なMRIワークフローを統合でき、タスクごとに個別のモデルを用意する必要を減らせる可能性を示唆する。