日本語の病理報告書作成を支援するオープンソース大規模言語モデルの性能評価
arXiv cs.CL / 2026/3/13
📰 ニュースModels & Research
要点
- 本論文は、日本語の病理報告書作成に関連する3つのタスクに対して、7つのオープンソースLLMを評価した:事前に定義された診断形式の生成と情報抽出、報告書の誤字の訂正、そして病理医と臨床医によるモデル生成説明の主観的評価。
- 思考モデルと医療特化モデルは、推論を要する構造化報告タスクおよび誤字訂正で優位性を示した。
- 説明出力に対する評価者間の嗜好は大きく異なり、臨床実務におけるモデル生成説明の受容が一定しないことを示唆している。
- 本研究は、オープンソースLLMが、日本語の病理報告書作成を限定的だが臨床的に関連するシナリオで支援するのに有用であり得ると結論づけている。
本研究では、日本語の病理報告書作成を支援する大規模言語モデル(LLM)の性能は未だ検証されていない。私たちは3つの視点から7つのオープンソースLLMを評価した:(A)事前に定義された形式に従う病理診断テキストの生成と情報抽出、(B)日本語病理報告書の誤字の訂正、(C)病理医と臨床医によるモデル生成説明文の主観的評価。推論を要する構造化報告タスクおよび誤字訂正において、思考モデルと医療特化モデルは有利であることを示した。これに対して、説明出力に対する好みは評価者間で大幅に異なった。タスクごとにLLMの有用性は異なるものの、我々の知見は、オープンソースLLMが限られたが臨床的に関連するシナリオで日本語の病理報告書作成を支援するのに有用である可能性を示唆している。


