ブラックボックスLLMの医療予測における解釈のためのサロゲートモデリング

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ブラックボックスのLLMがエンコードしている内容を定量的に解釈するために、医療予測の文脈で有効なサロゲートモデリングの枠組みを提案している。
ドメイン知識から導いた仮説について、観測可能な入出力データを収集し、それを多数のシミュレーションシナリオでの広範なプロンプトにより用いて、LLMの潜在的な知識空間を近似する。
実証的なプロトタイプ実験では、この枠組みにより、出力に対して各入力変数をLLMがどの程度「認識」しているかを測定できることが示されている。
LLMにエンコードされた知識には、確立された医学知識と矛盾する関連や、学術的に否定された人種に関する前提が学習データ由来で残存する可能性があることが明らかにされた。
著者らは、この枠組みを、安全かつ信頼できるモデル適用を支えるための「警告（red-flag）指標」として位置付けている。

Abstract

大規模言語モデル（LLM）は膨大なデータセットで学習され、実世界の広範な知識をそのパラメータにエンコードしている。しかし、そのブラックボックス性によって、このエンコードの仕組みや範囲が不明瞭になっている。複雑なシステムを近似するために単純化したモデルを用いるサロゲートモデリングは、ブラックボックスモデルのより良い解釈可能性へ向かう道を提供しうる。われわれは、LLMにエンコードされた知識を定量的に説明するサロゲートモデリングの枠組みを提案する。領域知識から導かれる特定の仮説に対して、この枠組みは、幅広いシミュレーション状況を網羅する大規模なプロンプト適用を通じて観測可能な要素（入出力ペア）を用い、潜在するLLMの知識空間を近似する。医療予測に関するプロトタイプ実験により、出力との関係で、LLMが各入力変数をどの程度「認識」しているのか、その範囲を明らかにする上での本枠組みの有効性を示す。特に、LLMが学習データに埋め込まれた不正確さや社会的バイアスを助長しうるという懸念に対し、本枠組みを用いた実験では、確立された医学的知識と矛盾する関連性と、さらに科学的に否定された人種に関する仮定がLLMにエンコードされた知識の中で持続していることの両方を、定量的に明らかにした。これらの問題を開示することで、本枠組みは安全で信頼できるこれらのモデルの適用を支える「警告フラグ」として機能しうる。