ブラックボックスLLMの医療予測における解釈のためのサロゲートモデリング
arXiv cs.CL / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ブラックボックスのLLMがエンコードしている内容を定量的に解釈するために、医療予測の文脈で有効なサロゲートモデリングの枠組みを提案している。
- ドメイン知識から導いた仮説について、観測可能な入出力データを収集し、それを多数のシミュレーションシナリオでの広範なプロンプトにより用いて、LLMの潜在的な知識空間を近似する。
- 実証的なプロトタイプ実験では、この枠組みにより、出力に対して各入力変数をLLMがどの程度「認識」しているかを測定できることが示されている。
- LLMにエンコードされた知識には、確立された医学知識と矛盾する関連や、学術的に否定された人種に関する前提が学習データ由来で残存する可能性があることが明らかにされた。
- 著者らは、この枠組みを、安全かつ信頼できるモデル適用を支えるための「警告(red-flag)指標」として位置付けている。




