RadLite:CPUで動かせる放射線科AIのための小型言語モデルに対するマルチタスクLoRA微調整

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本研究ではRadLiteとして、LoRAの微調整を用いることで、3〜4Bパラメータ規模の小型言語モデルでも高い放射線科のマルチタスク性能を実現でき、GPUに依存しない現場展開が可能になることを示している。
  • Qwen2.5-3B-InstructとQwen3-4Bを、12の公開データセットから収集して9つの放射線科タスク(RADS分類、所見生成、時間比較、放射線NLI/NER、異常検出、N/Mステージング、放射線QAなど)をカバーする162Kサンプルで学習した。
  • LoRA微調整はゼロショット基準を大幅に上回り、RADS精度+53%、NLI+60%、Nステージ+89%などの改善が報告されている。
  • 2つのモデルは補完的であり、Qwen2.5は構造化された生成タスクが得意で、Qwen3は抽出系タスクが強いとされている。また両モデルのタスク別オラクルアンサンブルが全タスクで最高性能を示した。
  • 実運用に向けて、モデルはGGUF形式に量子化(約1.8〜2.4GB)でき、一般向けCPU上で約4〜8 tokens/秒の速度で動作可能である。さらに、微調整済みモデルでのfew-shotプロンプトは性能を下げる場合があり、専門領域ではLoRA適応の方がインコンテキスト学習より有効だと結論づけている。

Abstract

大規模言語モデル(LLM)は放射線科領域において有望である一方、その導入は計算要件によって制限され、リソースの限られた臨床環境での利用を妨げています。私たちは、3〜40億パラメータ規模の小型言語モデル(SLM)が、LoRAの微調整を通じて強力なマルチタスク放射線科性能を達成できるかどうかを調査し、一般向けのCPUでのデプロイを可能にすることを目指します。私たちは、12の公開データセットから作成した9つの放射線科タスクにまたがる162Kサンプルで、Qwen2.5-3B-InstructおよびQwen3-4Bを学習します。具体的には、10システムにまたがるRADS分類、インプレッション生成、時系列比較、放射線科NLI、NER、異常検出、N/Mステージング、放射線科Q&Aです。両モデルは、標準化された指標により、タスクごとに最大500件の保留テストサンプルで評価します。主要な知見は以下のとおりです。(1)LoRAの微調整は、ゼロショットのベースラインに比べて性能を大幅に向上させます(RADS精度 +53%、NLI +60%、Nステージング +89%)。(2) 2つのモデルは補完的な強みを示します。Qwen2.5は構造化された生成タスクに優れ、Qwen3は抽出タスクに優位です。(3)両モデルを組み合わせたタスク別オラクルアンサンブルは、すべてのタスクで最良の性能を達成します。(4)微調整済みモデルによる少数ショット・プロンプトは性能を低下させ、LoRA適応が、専門領域におけるインコンテキスト学習よりも効果的であることを示します。(5)モデルはGGUF形式に量子化でき(約1.8〜2.4GB)、一般的なハードウェア上で4〜8トークン/秒の速度でCPUデプロイが可能です。私たちの研究は、効率よく微調整された小型モデル—私たちは総称してRadLiteと呼びます—が、GPU要件なしに、一般向けのハードウェアのみでデプロイ可能な、実用的なマルチタスク放射線科AIアシスタントとして機能し得ることを示しています。