「ボットに医者役をさせるな!」AIは早期診断を行うが、誤っている確率が80%

The Register / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 記事は、患者向けの診断推論に用いられるLLMベースのシステムは信頼性に欠ける可能性があると警告しており、早期診断の誤り率として約80%が挙げられている。
  • LLMを、適切な臨床的な監督なしに、患者に対して医療診断の生成やその正当化を直接行うために信頼してはいけないと強調している。
  • 本記事は、研究者たち(「boffins」)による、安全性と医療分野でのAIの責任ある導入に関する助言として位置づけている。
  • 会話型AIがもっともらしいが誤った医療情報を出力してしまうという、より広範なリスクを指摘し、より強固な検証とセーフガードの必要性を強調している。

ボットに医師役をさせないで!AIは早期の診断を出すのに80%の確率で間違える

「LLMは患者向けの診断推論には信頼すべきではない」と専門家が助言

2026年4月15日(水)  // 21:07 UTC

人々はAIにさまざまな助言を求めますが、医師に聞くような種類の質問もその中に含まれます。とはいえ、顔のあのできものが皮膚がんかどうかを理由に、次にあなたがChatGPTに尋ねたくなったとしたら、これを考えてください。研究によれば、今日の主要なAIモデルは、早期の鑑別診断において、10件中8件以上で失敗しているのです。

ハーバード大学の医学部学生アーリア・ラオが率いる研究チームは今週、JAMA Network Openで、29の標準化された臨床ビネット(症例短文)において21の主要な市販(オフ・ザ・シェルフ)AIモデルを調べた研究結果を発表しました。ボットは、医療情報の全セットを与えられ、最終診断を下すよう求められた場合には、かなり良好でした。主要モデルでは正解率が91%でした。一方で、鑑別診断のうち、臨床家がさまざまな可能性を秤にかけながら、特定の状態を除外しようとする「早期の鑑別診断」の段階でこそ、80%超という失敗率が発生します。

「私たちがテストしたすべてのモデルが、大半のケースで失敗しました」と、ラオはメールでThe Registerに述べました。「不確実性が最も重要になる段階であり、これらのシステムが最も弱いところです。」

言い換えると、これは昨日の“真夜中の不安に駆られたWebMDのうさぎ穴”が、今度はAIでさらにパワーアップされただけの話です。AIは、おそらくあなたがAIなしで間違うよりも、さらに物事を間違えやすいでしょう。 

返却形式: {"translated": "翻訳されたHTML"}

「私たちの結果は、患者に向けた診断推論については、今日の市販のオフ・ザ・シェルフ型LLMを構造化された包括的な人間のレビューなしに信用すべきではないことを示唆しています。また、患者が自己診断に用いる場合には大きな限界があります」と、論文共著者でマサチューセッツ総合病院(Massachusetts General Hospital)の放射線科医であるマーク・スッキ(Dr. Marc Succi)氏は、メールで私たちに語りました。 

「それらは、堅牢な推論を示すことなく自信を投影できます。特に鑑別診断(デファレンシャル・ダイアグノーシス)に関してはそうです」とスッキ氏は述べ、さらに、そのような自信は、ストレスや不安の問題を抱える患者の懸念を一段と強め得ると付け加えました。 

ラオ氏は、論文で示された失敗が、AIが診断を完全に大外れしたことを必ずしも意味するわけではなく、「完全に正しい答え」を提示できなかった、ということだけだと指摘しました。各ケースにおいて正答率として生の精度を割合(正解の比率)で測るほうが、より寛容な評価になるかもしれないとも彼女は述べました。その範囲は63〜78パーセントで、論文中で強調されたより厳格な「失敗率」指標よりもはるかに良い成績だというのです。

ラオ氏が私たちに伝えたところでは、生データは「モデルが部分的に正しいことが多く、誤りの場合でも正しい答えの一部は得られるが、すべてを得られるわけではないことを示唆しています。より厳格な“失敗率”の定義の下でも、完全に正しい鑑別診断を出せなかったとしても、そうした傾向が見られます」。 

とはいえ、チームは、より厳格な失敗率の定義も依然として注目されるべきだと主張しています。特に、AIボットはしばしば最前線の医療ケア担当エージェントとして売り込まれ、患者を人間のもとへ引き渡す前に診断を絞り込むことを目的にしているからです。 

「診断エージェントとしてのLLMをマーケティングすると、信頼性が最も低いまさにその領域で、誤った自信を助長するリスクがあります」とチームは説明しています。「鑑別診断を生成することや不確実性をたどることにおける持続的な失敗は、LLMが、最前線の意思決定においてまだ信用できないことを示しています。」

スッキ氏もまた、最終的な診断における成功率が高いからといって安心材料にはならないと述べています。そのようなデータは、誤解を招く“安全である”という感覚や、モデルの有能さに対する誤った認識を生み出し得る、と警告しました。 

「実際の臨床的推論は、曖昧さが最も高い段階より前から始まります。そしてまさにそこが、彼らが最も弱いところです」とスッキ氏は言いました。「最終的な答えにたどり着けたとしても、間違った鑑別診断によって治療の遅れ、不必要な手技と合併症、高額な費用、そしてそれ以外にも多くの問題が生じ得ます。」

つまり、次に健康上の懸念で行き詰まって堂々巡りになったときは、適切な診断を“人間”から受けるために医師の番号を探す目的以外でオンラインに行かないでください。AIはまだ準備ができていません。 ®

その他の情報

情報提供してください

ニュースをお知らせください