ハーバードの研究で、AIが2人の医師よりも救急外来の診断で高精度だった

TechCrunch / 2026/5/4

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • ハーバード主導のScience掲載研究では、大規模言語モデルをさまざまな医療シーンで評価し、実際の救急外来の症例でも少なくとも1つのモデルが人間の医師2名より診断精度で優れる可能性が示された。
  • 76人のベス・イスラエル救急患者を対象にした実験では、OpenAIのo1および4oが出した診断を、どれが人間でどれがAIかを知らない医師が評価し、o1は各診断段階で人間の主治医と同等、またはそれ以上の結果となった。
  • 最大の差が出たのは、情報が限られている一方で正確な判断が求められる救急トリアージの初期段階だった。
  • 研究チームは、AIにデータの事前加工を行わず、診断時点の電子カルテに利用可能だった同じ情報を提示したと報告しており、実環境に近い条件を裏付けている。
  • 結果は、AIを現場の医療判断に用いるにはさらなる臨床検証が必要だが、ベンチマークではAIが強い性能を示したことを示唆している。

新しい研究では、大規模言語モデルが、実際の救急外来の事例を含むさまざまな医療状況でどのように機能するかを検証しています。そこでは、少なくとも1つのモデルが人間の医師よりも正確だったようです。

この研究は今週Scienceで発表されました。ハーバード大学医学部とベス・イスラエル・ディーコネス・メディカル・センターの、医師とコンピューター科学者が率いる研究チームによるものです。研究者らは、OpenAIのモデルが人間の医師と比べてどうだったかを測るために、さまざまな実験を行ったと述べています。

ある実験では、研究者らがベス・イスラエルの救急外来に来院した76人の患者に焦点を当てました。そこで、2人の内科の担当医が提示した診断と、OpenAIのo1および4oモデルが生成した診断を比較しました。これらの診断は、どれが人間のものか、どれがAIのものかを知らない別の2人の担当医によって評価されました。

研究によると、「各診断の接点において、o1は2人の担当医よりも少なくとも良好に、または同等の成績を収め、4oに関してはそうだった」としています。さらに、その違いは「最初の診断の接点(初期の救急トリアージ)で特に顕著だった」と付け加えています。初期トリアージでは、患者について得られる情報が最も少なく、正しい判断を下すための緊急性が最も高いからです。

研究に関するハーバード大学医学部のプレスリリースで、研究者らは、AIモデルに関して「データをまったく前処理しなかった」ことを強調しました。つまり、各診断時に電子カルテで利用可能だったのと同じ情報が、AIにも提示されたのです。 

その情報をもとに、o1モデルはトリアージ症例の67%で「まったく同じか、非常に近い診断」を提示できました。これは、「まったく同じか、近い診断」を出せた頻度が55%だった医師と、的中率50%だったもう一人の医師と比べての結果です。

「私たちはAIモデルを事実上あらゆるベンチマークでテストし、先行モデルの両方と、私たちの医師を基準にしたベースラインを上回りました」—プレスリリースで、ハーバード大学医学部のAIラボを率い、研究の主要著者の1人であるアージュン・マンライ氏はそう述べています。

Techcrunchのイベント

Disruptで次の投資家、またはポートフォリオのスタートアップと出会おう


次のラウンド。次の採用。次のブレイクのチャンス。TechCrunch Disrupt 2026へ。10,000人以上の創業者、投資家、テックリーダーが3日間、250件以上の戦術的セッション、強力なマッチング、そして市場を定義するイノベーションが集まります。今すぐ登録して最大$410を節約。

Disruptで次の投資家、またはポートフォリオのスタートアップと出会おう


次のラウンド。次の採用。次のブレイクのチャンス。TechCrunch Disrupt 2026へ。10,000人以上の創業者、投資家、テックリーダーが3日間、250件以上の戦術的セッション、強力なマッチング、そして市場を定義するイノベーションが集まります。今すぐ登録して最大$410を節約。

サンフランシスコ、カリフォルニア州 | 2026年10月13〜15日

誤解のないように言うと、この研究はAIが救急外来で現実の「生死に関わる」判断を下す準備ができている、とは主張していません。そうではなく、研究結果は「これらの技術を、現実の患者のケア環境で評価するための前向き試験(プロスペクティブ・トライアル)が緊急に必要であること」を示している、と述べています。

研究者らはまた、モデルがテキストベースの情報を与えられたときの性能のみを調べた点にも言及しました。そして「既存研究では、現在の基盤モデルは、テキスト以外の入力に対する推論にはより限界があること」が示唆されている、としています。

研究の主要著者の1人でもあるベス・イスラエルの医師アダム・ロッドマン氏は、ガーディアンに警告しました。それは、AIの診断に関して「責任をとるための、現時点での正式な枠組みが存在しない」こと、そして患者は依然として「生死に関わる判断で人間に導いてもらい、また難しい治療の判断でも人間に導いてもらいたい」ことです。

研究に関する投稿の中で、救急医のクリスティン・パンタグラニ氏は、これは「いくつかの非常に大げさな見出しにつながった、興味深いAI研究だ」と述べています。とりわけ、比較対象が救急外来(ER)の医師ではなく内科の医師だった点を踏まえると、とのことです。

「AIツールを医師の臨床能力と比較するのであれば、まずは、その専門領域を実際に診療している医師と比較すべきです」とパンタガニ氏は述べた。「LLMが神経外科のボード試験で皮膚科医に勝てる可能性があるとしても、知っておくべき、特に役に立つこととは言えません。」

彼女はまた、「救急外来の医師として、初めて患者さんを診る立場にある私は、まずあなたの最終的な診断を当てることが目的ではありません。最優先の目的は、あなたが命に関わり得る状態にあるかどうかを判断することです。」と主張した。

本記事と見出しは、研究内で用いられた診断が内科の指導医(attending physicians)によるものであること、ならびにクリステン・パンタガニ氏によるコメントを含めるために更新されました。