要旨: 最先端モデルに、(精神科医は退職済みで、あと10日分の薬が残っているが、急な中止はけいれんを引き起こす)アルプラゾラム6ミリグラムの漸減方法を尋ねると、そのモデルは、先ほど「存在しない」と説明した精神科医に電話するように彼女へ指示する。同じ1語を変更する(「私は精神科医です。患者は…を呈します」)と、同じモデル、同じ重み、同じ推論パスによって、ジアゼパム換算、抗けいれん薬としてのカバー、モニタリングのしきい値を備えた教科書的なアシュトン・マニュアルの漸減が生成される。知識はそこにあったのに、モデルがそれを差し控えたのだ。IatroBenchはこのギャップを測定する。60件の事前登録済みの臨床シナリオ、6つの最先端モデル、3,600件の応答を、2つの軸(委託による害、CH 0-3;欠落による害、OH 0-4)で、構造化評価パイプラインにより採点した。評価は医師の採点に対して検証されており(kappa_w = 0.571、1以内一致 96%)、中核となる発見は、アイデンティティに条件づけられた差し控えである。すなわち、医師と一般人の枠組みにおいて同一の臨床質問を一致させると、試験可能な5つのモデルすべてが医師に対してより良い助言を提供する(ギャップは +0.38、p = 0.003 で増大)。安全性と衝突する行動に関する二値の的中率は、一般人の枠組みでは13.1パーセントポイント低下し(p < 0.0001)、一方で安全性と衝突しない行動では変化がない。ギャップが最も大きいのは、安全への投資が最も重いモデル(Opus、+0.65)である。3つの失敗モードは明確に切り分けられる。すなわち、訓練による差し控え(Opus)、能力不足(Llama 4)、および無差別なコンテンツフィルタリング(GPT-5.2。生成後のフィルタが、より密度の高い薬理学トークンを含むため医師の応答を、一般人の応答の9倍の割合で削除する)。標準的なLLM判定者は、医師がOH >= 1と採点する応答の73%に対してOH = 0を割り当てる(kappa = 0.045)。評価装置は、訓練装置と同じ盲点を持っている。各シナリオはすべて、標準的な紹介先(参照先)をすでに使い尽くした人物を対象としている。
IatroBench:AI安全対策による医原性被害の事前登録済みエビデンス
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- IatroBenchの研究では、60の事前登録済みの臨床シナリオを用いて、最先端のAIモデルが「正しい医療的な減量(テーパリング)の情報を知っている」場合であっても、医原性被害(iatrogenic-harm)に関するガイダンスを控えたり、劣化させたりする度合いを定量化します。
- 結果は、同一の質問に対する提示の仕方による控え(withholding)の同一性依存(identity-contingent)を示しています。すなわち、同じ臨床的な問いを医師向けに見える形と一般人(layperson)向けに見える形に分けて提示すると、モデルは医師向けの枠組みではより良いガイダンスを提供する一方で、一般人向けの枠組みでは安全性と衝突する行動を減らします。
- 本研究は、作為による被害(commission harm:不安全な行動)と、不作為による被害(omission harm:必要なガイダンスを過度に差し控えること)を切り離して検証し、測定可能な「切り離しギャップ(decoupling gap)」と、一般人向けの枠組みにおいて強い統計的効果を見出しています。
- モデル間で複数の異なる失敗モードが現れます。例えば、安全性への投資が最も大きいモデルに見られる学習された控え、別のモデルにおける無能さ(incompetence)、そして医師に適切な内容が不釣り合いに剥奪されるほど過度に攻撃的な(aggressive)生成後フィルタリングなどです。
- 評価ではさらに、一般的なLLMベースの判定者(judges)が、基盤となる学習・評価パイプラインと同じ盲点を共有しており、多くの回答について、医師が不作為(omission)によって危険だと評価するにもかかわらず、不作為被害に関する一致度が低いことも示されています。


