連鎖的思考が裏目に出るとき：医療言語モデルにおけるプロンプト感度の評価

Abstract

大規模言語モデル（LLM）は医療現場でますます導入されているものの、プロンプトの書式に対する感度は十分に特徴づけられていません。私たちは、堅牢性テストの幅広いスイートにわたって、MedMCQA（4,183問）およびPubMedQA（1,000問）上でMedGemma（4Bおよび27Bパラメータ）を評価します。実験の結果、いくつかの懸念すべき知見が明らかになりました。チェーン・オブ・ソート（CoT）によるプロンプトは、直接回答と比べて精度を5.7%低下させます。少数例（few-shot）では、位置バイアスが0.14から0.47へ増加しつつ、性能が11.9%劣化します。回答選択肢をシャッフルすると、モデルは59.1%の確率で予測を変え、その一方で精度は最大27.4パーセントポイント低下します。コンテキストを50%でフロントトランケートすると、コンテキストなしのベースラインを下回るほど精度が急落しますが、バックトランケーションでは、フルコンテキストの精度の97%が維持されます。さらに、クロージャスコアリング（最も高い対数確率を持つオプショントークンを選択）を行うと、51.8%（4B）および64.5%（27B）を達成し、あらゆるプロンプト戦略を上回ります。これは、モデルが生成されたテキスト以上のことを「知っている」ことを示唆しています。順序付けのみの推論に対し、パーミュテーション投票は4パーセントポイント回復します。これらの結果は、一般用途のモデルで検証されたプロンプト・エンジニアリング手法が、ドメイン特化型の医療LLMには転移しないこと、そして信頼できる代替手段が存在することを示しています。

連鎖的思考が裏目に出るとき：医療言語モデルにおけるプロンプト感度の評価

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer