CheXthought:胸部X線診断に向けた臨床チェーン・オブ・ソート推論と視覚的注意を収録するグローバルなマルチモーダルデータセット

arXiv cs.AI / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、CheXthoughtというグローバルなマルチモーダル臨床データセットを提案しており、71か国・501名の放射線科医が読影した50,312件の胸部X線(複数読影)から、チェーン・オブ・ソート推論トレース103,592件と同期した視覚的注意アノテーション約6,609,082件を収録しています。
  • 著者らは、CheXthoughtの推論を用いるモデルが、既存のビジョン・ランゲージモデルのチェーン・オブ・ソート手法よりも、事実精度と空間的グラウンディングの面で優れていると報告しています。
  • 推論時に視覚的注意をヒントとして組み込むことで、見落とした所見を回復でき、ハルシネーションを減らせると示されています。
  • CheXthoughtデータで学習したモデルは、病理分類、視覚的忠実性、一時的推論、そして不確実性の伝達がより強くなるだけでなく、画像からケースの難しさや不確実性、モデル信頼性をめぐる人間同士・人間—AIの不一致を予測できるとされています。
  • 総じてCheXthoughtは、臨床推論におけるマルチモーダルなビジョン・ランゲージモデルをより透明で解釈可能に進めるためのリソースとして位置づけられています。

Abstract

胸部X線の解釈は、医学において最も頻繁に実施される診断タスクの一つであり、AI開発の主要なターゲットでもあります。しかし現在の視覚--言語モデルは、臨床的推論の基盤となる認知プロセスや視覚的注意に関しては主に、対となる画像とレポートのデータセットで訓練されています。ここでは、CheXthought を提示します。これはグローバルなマルチモーダル資源であり、103,592本の推論の連鎖(chain-of-thought)に関する推論トレースと、50,312件の複数読影された胸部X線(71か国の501人の放射線科医による)にまたがる6,609,082件の同期された視覚的注意注釈を含みます。私たちの分析により、専門家がどのように異なる視覚探索戦略を用いるか、臨床的文脈をどのように統合するか、そして不確実性をどのように伝達するかといった臨床的推論パターンが明らかになりました。私たちは、CheXthought の臨床的有用性を4つの次元で示します。第一に、CheXthought の推論は、事実の正確性と空間的根拠の点で、最先端の視覚--言語モデルの chain-of-thought を有意に上回ります。第二に、推論時のヒントとして用いる視覚的注意データにより、見落とされた所見を回収でき、そして幻覚を有意に低減できます。第三に、CheXthought データで訓練されたモデルは、病理の分類、視覚的忠実性、時間的推論、不確実性の伝達において、有意により強力です。第四に、CheXthought の複数読影者による注釈を活用することで、画像から直接、人--人および人--AI の不一致を予測し、症例の難しさ、不確実性、そしてモデルの信頼性を透明に伝達できるようにします。これらの結果は、CheXthought がマルチモーダルな臨床的推論を発展させ、より透明で解釈可能な視覚--言語モデルを開発するための資源であることを確立します。