ブラジルのヘルスケアにLLMを教える：公式臨床ガイドラインから知識を注入する

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、ブラジルの統一保健システム（SUS）のガイドライン知識を、ブラジルポルトガル語で参照・想起する点で既存のLLMが苦手であることを示し、ドメイン特化アプローチの必要性を述べています。
著者らは、178の公式臨床ガイドライン（約540万トークン）から生成した合成データに対して、Qwen2.5-14B-Instructを継続事前学習とGroup Relative Policy Optimization（GRPO）で適応させています。
HealthBench-BR（1,780件の真偽文）とPCDT-QA（890件の自由回答型臨床質問）という評価ベンチマークを新たに導入し、ブラジルのプロトコルに基づく評価が欠けている問題を埋めています。
最良モデル（14Bパラメータ）はHealthBench-BRで83.9%、PCDT-QAで85.4%を達成し、複数のより大規模な商用システムやウェブ根拠型RAGを上回ったとされます。さらに、発見的にはジェネレータの多様性と強化学習が改善に重要であることをアブレーションで示しています。
すべてのデータセット、ベンチマーク、モデル重みを公開し、ブラジルポルトガル語での再現可能な臨床NLP研究を支援するとともに、コードと成果物もGitHubで提供しています。

要旨: ブラジルの統一保健システム（SUS）は、2億人超の市民に対して診断基準、治療、投与量、モニタリング手順を定める公式の臨床ガイドラインに依存しています。しかし、現在のLLMはガイドラインに特化した知識への適合が不十分であり、ブラジルのポルトガル語プロトコルに基づく臨床的想起（リコール）を評価するベンチマークも存在しません。私たちはこのギャップを埋めるために、Qwen2.5-14B-Instructをブラジルの臨床領域へ適応します。178の公式ガイドライン（約540万トークン）から、4つの生成器LLMを用いて、3つの形式――言い換え、ウィキ風の記事、質問応答ペア――で約7,000万トークンの合成データを生成します。その後、継続的事前学習と、Group Relative Policy Optimization（GRPO）を適用します。バランスの取れた真/偽の臨床的主張1,780件を含むHealthBench-BRと、LLM判定器によってスコア付けされる自由形式の臨床質問890件を含むPCDT-QAを提案します。私たちの最良モデルは、HealthBench-BRで83.9%、PCDT-QAで85.4%を達成し、14Bパラメータしか持たないにもかかわらず、GPT-5.2、Claude Sonnet 4.6、Gemini 3.1 Pro、およびGoogle AI Overviewのウェブに基づくRAGを上回ります。アブレーション結果は、生成器の多様性と強化学習がこれらの改善に重要であることを示しています。再現可能なブラジルポルトガル語の臨床NLP研究を支援するため、すべてのデータセット、ベンチマーク、モデル重みを公開します。コード、データ、およびモデル重みは https://github.com/hugoabonizio/clinical-protocols-br で利用可能です