PET-F2I: PET/CTレポート所見生成のための包括的ベンチマークとパラメータ効率的ファインチューニングを用いたLLMs

arXiv cs.CV / 2026/3/12

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

著者らは PET-F2I-41K（PET Findings-to-Impression Benchmark）を紹介する。41,000を超える実世界のPET/CTレポートから診断所見を生成する大規模データセットである。
27モデルを評価し、前沿のLLMs、オープンソースの総合モデル、医療分野のLLMsを含む。ゼロショット性能は不十分であることを発見した。
LoRAを用いて Qwen2.5-7B-Instruct からファインチューニングされたドメイン適応型7Bモデル PET-F2I-7B を訓練し、BLEU-4 は 0.708 を達成し、最も強力なベースラインに比べエンティティカバレッジを3倍改善した。
臨床的に根拠のある3つの指標—Entity Coverage Rate（ECR）、Uncovered Entity Rate（UER）、Factual Consistency Rate（FCR）—を導入し、標準的なNLG指標と併せて診断の完全性と事実性の信頼性を評価する。
本研究は PET/CT レポーティングのコスト、待機時間、プライバシーの利点を強調し、信頼できる臨床レポーティングシステムの開発を促進する標準化評価フレームワークを提供する。

要旨：PET/CT画像診断は腫瘍学と核医学において極めて重要であるが、複雑な所見を正確な診断所見に要約する作業は労力を要する。LLMsは医療テキスト生成で有望を示している一方で、PET/CTの高度に専門的な領域における能力は十分には検討されていない。私たちはPET-F2I-41K（PET Findings-to-Impression Benchmark）を紹介する。PET/CTの所見生成のための大規模ベンチマークで、実世界の41kを超えるレポートから構築されたPET-F2I-41Kを用いて、27モデルの包括的な評価を実施し、前沿のLLMs、オープンソースの汎用モデル、医療分野のLLMsを横断して評価し、LoRAを介してQwen2.5-7B-Instructからファインチューニングされたドメイン適応型7Bモデル（PET-F2I-7B）を開発した。標準的なNLG指標（BLEU-4、ROUGE-L、BERTScore）を超え、臨床に根ざした3つの指標—Entity Coverage Rate（ECR）、Uncovered Entity Rate（UER）、Factual Consistency Rate（FCR）—を提案し、診断の完全性と事実の信頼性を評価する。実験の結果、前線モデルも医療分野のLLMsもゼロショット設定で十分な性能を示さなかった。一方、PET-F2I-7Bは強力なベースラインよりもエンティティカバレッジを3.0倍向上させつつ、BLEU-4は0.708と顕著な改善を達成し、コスト、待機時間、プライバシーの面でも利点を提供する。このモデリングの貢献を超えて、PET-F2I-41KはPET/CTの信頼性が高く臨床導入可能なレポーティングシステムの開発を加速する標準化評価フレームワークを確立する。