要旨: 大規模言語モデル(LLM)は、臨床の質問応答や意思決定支援に向けてますます検討されている一方で、安全に導入するには、異種の臨床ノートに含まれる患者の測定値を信頼性高く取り扱えることが決定的に重要です。臨床における数値推論のための既存のLLM評価は、運用レベルでのカバー範囲が限られており、主として算術計算にとどまっているほか、臨床ノートの形式が異なるときの数値理解の頑健性を評価することはほとんどありません。本稿では、根拠となる正解を伴う1,624件のコンテキスト-質問インスタンスからなるベンチマーク「ClinicNumRobBench」を導入し、臨床的数値能力の主要4種類、すなわち値の取得、算術計算、関係の比較、集計を評価します。頑健性を強く試すために、ClinicNumRobBenchは、3種類の意味的に等価な表現で、縦断的なMIMIC-IVのバイタルサイン記録を提示します。ここには、Open Patientsデータセットから派生した実運用のノート形式の変種も含まれます。また、42種類の質問テンプレートを用いてクエリを具体化します。14のLLMに関する実験では、値の取得は概して強力であり、ほとんどのモデルが85%を超える精度を示す一方で、関係の比較と集計は依然として難しく、一部のモデルでは15%未満のスコアでした。医療データでの微調整は、基盤モデルに比べて数値能力を30%以上低下させ得て、ノート形式の変化下での性能低下は、LLMが形式に敏感であることを示唆します。ClinicNumRobBenchは、臨床的に信頼できる数値推論のための厳密なテストベッドを提供します。コードとデータのURLは https://github.com/MinhVuong2000/ClinicNumRobBench で利用可能です。
臨床における数的素養に対して大規模言語モデルはどれほど頑健か?臨床文脈での数的推論能力に関する経験的研究
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、臨床意思決定支援にLLMを導入する際の安全性上のギャップに対処するため、単なる算術の正確さだけでなく、患者の測定値を、形式が異なる臨床ノートにおいてどれほど頑健に扱えるかを検証する。
- 42の質問テンプレートと、縦断的なMIMIC-IVのバイタルサイン記録を意味的に同等な3つの表現方法で用い、4つの臨床数的素養(値の取得、算術計算、関係に基づく比較、集約)をカバーする1,624件の文脈—質問インスタンスからなるベンチマーク「ClinicNumRobBench」を導入する。
- 14のLLMに対する実験では、値の取得は概ね強い(多くのモデルで85%超の正解率)が、関係に基づく比較と集約ははるかに難しく(一部のモデルで15%未満)なることが分かった。
- 結果は、医療データによるファインチューニングが数的素養を大幅に悪化させうること(ベースモデル比で30%以上の低下)と、ノートの表現スタイルが変わると性能が低下すること、すなわち入力形式への感度を示している。
- 著者らは、ベンチマークとコード/データを公開利用できる形で提供し、ClinicNumRobBenchを臨床的に信頼できる数的推論のための厳密な検証基盤として位置づけている。

