日本語の病理報告書作成を支援するオープンソース大規模言語モデルの性能評価

arXiv cs.CL / 2026/3/13

📰 ニュースModels & Research

共有:

要点

本論文は、日本語の病理報告書作成に関連する3つのタスクに対して、7つのオープンソースLLMを評価した：事前に定義された診断形式の生成と情報抽出、報告書の誤字の訂正、そして病理医と臨床医によるモデル生成説明の主観的評価。
思考モデルと医療特化モデルは、推論を要する構造化報告タスクおよび誤字訂正で優位性を示した。
説明出力に対する評価者間の嗜好は大きく異なり、臨床実務におけるモデル生成説明の受容が一定しないことを示唆している。
本研究は、オープンソースLLMが、日本語の病理報告書作成を限定的だが臨床的に関連するシナリオで支援するのに有用であり得ると結論づけている。

本研究では、日本語の病理報告書作成を支援する大規模言語モデル（LLM）の性能は未だ検証されていない。私たちは3つの視点から7つのオープンソースLLMを評価した：（A）事前に定義された形式に従う病理診断テキストの生成と情報抽出、（B）日本語病理報告書の誤字の訂正、（C）病理医と臨床医によるモデル生成説明文の主観的評価。推論を要する構造化報告タスクおよび誤字訂正において、思考モデルと医療特化モデルは有利であることを示した。これに対して、説明出力に対する好みは評価者間で大幅に異なった。タスクごとにLLMの有用性は異なるものの、我々の知見は、オープンソースLLMが限られたが臨床的に関連するシナリオで日本語の病理報告書作成を支援するのに有用である可能性を示唆している。

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

日本語の病理報告書作成を支援するオープンソース大規模言語モデルの性能評価

要点

関連記事

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer