Abstract
大規模言語モデル(LLM)は医療現場でますます導入されているものの、プロンプトの書式に対する感度は十分に特徴づけられていません。私たちは、堅牢性テストの幅広いスイートにわたって、MedMCQA(4,183問)およびPubMedQA(1,000問)上でMedGemma(4Bおよび27Bパラメータ)を評価します。実験の結果、いくつかの懸念すべき知見が明らかになりました。チェーン・オブ・ソート(CoT)によるプロンプトは、直接回答と比べて精度を5.7%低下させます。少数例(few-shot)では、位置バイアスが0.14から0.47へ増加しつつ、性能が11.9%劣化します。回答選択肢をシャッフルすると、モデルは59.1%の確率で予測を変え、その一方で精度は最大27.4パーセントポイント低下します。コンテキストを50%でフロントトランケートすると、コンテキストなしのベースラインを下回るほど精度が急落しますが、バックトランケーションでは、フルコンテキストの精度の97%が維持されます。さらに、クロージャスコアリング(最も高い対数確率を持つオプショントークンを選択)を行うと、51.8%(4B)および64.5%(27B)を達成し、あらゆるプロンプト戦略を上回ります。これは、モデルが生成されたテキスト以上のことを「知っている」ことを示唆しています。順序付けのみの推論に対し、パーミュテーション投票は4パーセントポイント回復します。これらの結果は、一般用途のモデルで検証されたプロンプト・エンジニアリング手法が、ドメイン特化型の医療LLMには転移しないこと、そして信頼できる代替手段が存在することを示しています。