ボットに医師役をさせないで!AIは早期の診断を出すのに80%の確率で間違える
「LLMは患者向けの診断推論には信頼すべきではない」と専門家が助言
人々はAIにさまざまな助言を求めますが、医師に聞くような種類の質問もその中に含まれます。とはいえ、顔のあのできものが皮膚がんかどうかを理由に、次にあなたがChatGPTに尋ねたくなったとしたら、これを考えてください。研究によれば、今日の主要なAIモデルは、早期の鑑別診断において、10件中8件以上で失敗しているのです。
ハーバード大学の医学部学生アーリア・ラオが率いる研究チームは今週、JAMA Network Openで、29の標準化された臨床ビネット(症例短文)において21の主要な市販(オフ・ザ・シェルフ)AIモデルを調べた研究結果を発表しました。ボットは、医療情報の全セットを与えられ、最終診断を下すよう求められた場合には、かなり良好でした。主要モデルでは正解率が91%でした。一方で、鑑別診断のうち、臨床家がさまざまな可能性を秤にかけながら、特定の状態を除外しようとする「早期の鑑別診断」の段階でこそ、80%超という失敗率が発生します。
「私たちがテストしたすべてのモデルが、大半のケースで失敗しました」と、ラオはメールでThe Registerに述べました。「不確実性が最も重要になる段階であり、これらのシステムが最も弱いところです。」
言い換えると、これは昨日の“真夜中の不安に駆られたWebMDのうさぎ穴”が、今度はAIでさらにパワーアップされただけの話です。AIは、おそらくあなたがAIなしで間違うよりも、さらに物事を間違えやすいでしょう。
「私たちの結果は、患者に向けた診断推論については、今日の市販のオフ・ザ・シェルフ型LLMを構造化された包括的な人間のレビューなしに信用すべきではないことを示唆しています。また、患者が自己診断に用いる場合には大きな限界があります」と、論文共著者でマサチューセッツ総合病院(Massachusetts General Hospital)の放射線科医であるマーク・スッキ(Dr. Marc Succi)氏は、メールで私たちに語りました。
「それらは、堅牢な推論を示すことなく自信を投影できます。特に鑑別診断(デファレンシャル・ダイアグノーシス)に関してはそうです」とスッキ氏は述べ、さらに、そのような自信は、ストレスや不安の問題を抱える患者の懸念を一段と強め得ると付け加えました。
ラオ氏は、論文で示された失敗が、AIが診断を完全に大外れしたことを必ずしも意味するわけではなく、「完全に正しい答え」を提示できなかった、ということだけだと指摘しました。各ケースにおいて正答率として生の精度を割合(正解の比率)で測るほうが、より寛容な評価になるかもしれないとも彼女は述べました。その範囲は63〜78パーセントで、論文中で強調されたより厳格な「失敗率」指標よりもはるかに良い成績だというのです。
ラオ氏が私たちに伝えたところでは、生データは「モデルが部分的に正しいことが多く、誤りの場合でも正しい答えの一部は得られるが、すべてを得られるわけではないことを示唆しています。より厳格な“失敗率”の定義の下でも、完全に正しい鑑別診断を出せなかったとしても、そうした傾向が見られます」。
- AIの医師アシスタントは処方箋を簡単に左右されて変えてしまい、悪い医療助言をする
- AIチャットボットは検索エンジンほど医療助言ができない
- AIモデルは幻覚(ハルシネーション)を起こす。それでも医師たちはそれでOKだ
- ChatGPTは多くの米国在住者にとって“医師ごっこ”をしており、OpenAIは金の匂いを嗅いでいる
とはいえ、チームは、より厳格な失敗率の定義も依然として注目されるべきだと主張しています。特に、AIボットはしばしば最前線の医療ケア担当エージェントとして売り込まれ、患者を人間のもとへ引き渡す前に診断を絞り込むことを目的にしているからです。
「診断エージェントとしてのLLMをマーケティングすると、信頼性が最も低いまさにその領域で、誤った自信を助長するリスクがあります」とチームは説明しています。「鑑別診断を生成することや不確実性をたどることにおける持続的な失敗は、LLMが、最前線の意思決定においてまだ信用できないことを示しています。」
スッキ氏もまた、最終的な診断における成功率が高いからといって安心材料にはならないと述べています。そのようなデータは、誤解を招く“安全である”という感覚や、モデルの有能さに対する誤った認識を生み出し得る、と警告しました。
「実際の臨床的推論は、曖昧さが最も高い段階より前から始まります。そしてまさにそこが、彼らが最も弱いところです」とスッキ氏は言いました。「最終的な答えにたどり着けたとしても、間違った鑑別診断によって治療の遅れ、不必要な手技と合併症、高額な費用、そしてそれ以外にも多くの問題が生じ得ます。」
つまり、次に健康上の懸念で行き詰まって堂々巡りになったときは、適切な診断を“人間”から受けるために医師の番号を探す目的以外でオンラインに行かないでください。AIはまだ準備ができていません。 ®



