ショートカットを打ち砕く:LLMsにおける多段階医療推論のためのトポロジー正則化ベンチマーク

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ShatterMed-QAは、LLMsにおける深層診断推論を評価するための、10,558問の二言語対応の多段階臨床質問ベンチマークを導入します。
  • トポロジー正則化を取り入れた医療知識グラフと k-Shattering アルゴリズムを用いて、一般的なハブを剪定し、ショートカット経路を断ち切ります。
  • 21種類のLLMに対する評価は、多段階タスクで顕著な性能低下を示し、RAGベースの回復が性能の多くを回復させ、データセットの忠実性を裏付けました。
  • この手法には、暗黙の橋渡しエンティティのマスキングと、トポロジー主導のハードネガティブサンプリングを含み、生物学的に妥当な推論を促し、表面的な除外に頼らないようにします。

要旨:大型言語モデル(LLMs)は、標準的な医療ベンチマークで単一ホップの事実思い出しによって専門家レベルの性能を達成する一方で、現実の臨床現場で求められる複雑で多段階の診断推論には著しく苦戦します。主な障害は「ショートカット学習」であり、モデルは知識グラフの高度に結びついた汎用ハブノード(例:「炎症」)を利用して真の微小病理カスケードを回避します。これに対処するため、深い診断推論を厳密に評価するよう設計された、10,558問の多段階臨床質問からなるバイリンガル・ベンチマーク ShatterMed-QA を紹介します。私たちのフレームワークは、新規の k-Shattering アルゴリズムを用いてトポロジー正規化された医療知識グラフを構築し、汎用ハブを物理的に刈り取ることで、論理的ショートカットを明示的に遮断します。評価のビネットは、暗黙のブリッジエンティティのマスキングとトポロジー駆動のハードネガティブサンプリングを適用して合成し、表面的な排除に頼らず生物学的に妥当な惑わせ要素を含む状況をモデルに進ませます。21件のLLMs の包括的評価は、多段階タスクで大幅な性能低下を示し、特にドメイン特化型モデル間で顕著です。特に重要なのは、 Retrieval-Augmented Generation(RAG) によるマスクされた証拠の復元がほぼ普遍的な性能回復を引き起こし、ShatterMed-QA の構造的忠実性を検証し、現在の医療AIが抱える根本的な推論欠陥を診断する有効性を証明することです。データセット、対話型の例、および全リーダーボードは、プロジェクト公式サイト: https://shattermed-qa-web.vercel.app/ でご確認ください。

ショートカットを打ち砕く:LLMsにおける多段階医療推論のためのトポロジー正則化ベンチマーク | AI Navigate