要旨: 大規模言語モデル(LLM)は、臨床推論やリスク評価にますます利用されるようになっている。しかし、精神医学のような重要かつ不確定な領域におけるそれらの解釈上の信頼性は、いまだ明らかではない。先行研究では、これらのシステムにおけるアルゴリズム上のバイアスやプロンプトへの感度が指摘されており、文脈情報がモデルの出力にどのように影響し得るかについて懸念がある。一方で、特に精神医学領域では、これを体系的に評価する方法が存在しない。そこで本研究では、しばしば最初の下流タスクとなるAIによる臨床意思決定において用いられる「入院リスクスコア」の予測に対する、プロンプト設計の影響と、医学的に無意味な入力の含有がもたらす影響を軸に評価を構造化することで、下流のLLMタスクに対する信頼性監査のアプローチを提案する。我々の監査では、合成患者プロファイルのコホート(n = 50)を生成する。各プロファイルは、臨床的に関連する15の特徴と、最大50の臨床的に無意味な特徴から成り、さらに4種類のプロンプトの組み替え(ニュートラル、論理的、人間への影響、臨床判断)にまたがる。監査対象は4つのLLM(Gemini 2.5 Flash、LLaMa 3.3 70b、Claude Sonnet 4.6、GPT-4o mini)であり、その結果、医学的に無意味な変数を含めると、すべてのモデルおよびプロンプトにおいて、絶対的な平均入院リスク予測値と出力のばらつきが統計的に有意に増加し、文脈ノイズの増大に伴って予測の安定性が低下することが示された。臨床的に無意味な特徴は、多くのモデル・プロンプト条件における不安定性に影響を与え、プロンプトの変化は不安定性の軌跡に対してモデル依存的に独立して影響した。これらの知見は、LLMベースの精神医学的リスク評価が非臨床情報に敏感であることを定量化するものであり、臨床導入の前に、このような帰属の安定性や不確実性の挙動について体系的な評価が必要であることを示している。
精神科の下流LLMタスクにおける信頼性監査:LLMが生成する入院リスクスコアの評価
arXiv cs.AI / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、精神科領域で臨床推論に用いられるLLMが生成する入院リスクスコアの信頼性(解釈の安定性)を、確実性が低い領域である点に焦点を当てて検証する。
- 信頼性監査の枠組みとして、「プロンプトの言い換えが出力に与える影響」と「医学的に重要でない入力を加えたときに予測リスクがどう変わるか」を評価軸に据える。
- 合成患者プロフィール(n=50)を用い、臨床的に関連する15の特徴量に加えて最大50の臨床的に無関係な特徴量を追加し、4種類のプロンプト再構成のもとで4モデル(Gemini 2.5 Flash、LLaMa 3.3 70b、Claude Sonnet 4.6、GPT-4o mini)を監査する。
- すべてのモデルとプロンプトにおいて、医学的に無関係な変数を含めると、予測される入院リスクの平均値の絶対値と出力のばらつきが統計的に有意に増加し、予測の安定性が低下することが示される。
- プロンプトの違いと臨床的に無関係な特徴量はそれぞれ独立に、さらにモデル依存の形で不安定性の挙動を変えるため、臨床導入前に不確実性や帰属(アトリビューション)の安定性を体系的に評価する必要性が強調される。




