MedMT-Bench:医療シナリオにおいてLLMは長い多回ターンの会話を記憶し理解できるか?

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、長文コンテキストの記憶力、干渉への頑健性、模擬的な診断・治療の会話における安全性に関わる挙動を厳密に検証する新しい医療向けマルチターン指示追従ベンチマーク「MedMT-Bench」を提案する。
  • MedMT-Benchには400件のテストケースが含まれ、平均22ラウンド(最大52ラウンド)で構成される。これは、場面ごとのデータ合成により生成され、実世界の医療ワークフローに合わせるために手動の専門家編集で洗練されている。
  • 評価では、インスタンス単位のルーブリックと原子的な採点項目を用いるLLM-as-judge(LLMを裁定者として用いる)プロトコルを採用する。この採点は専門家による注釈と照合され、人手とLLMの一致率は91.94%と報告されている。
  • 17の最先端モデルで検証したところ、いずれのシステムも性能が不足しており、全体の精度は60%未満、最良結果でも59.75%にとどまった。これにより、現行モデルは長い多回ターンの医療的推論と指示追従に依然として課題を抱えていることが示される。
  • 著者らは、MedMT-Benchを、より安全で信頼性の高い医療AIシステムに向けた今後の研究を導くための、特化したツールとして位置付ける。

Abstract

大規模言語モデル(LLM)は、さまざまな専門領域において目覚ましい能力を示し、医学のような高リスク領域にも統合されてきました。しかし、既存の医療関連ベンチマークは、実運用で求められる長文コンテキストの記憶、干渉への頑健性、安全防御をほとんどストレステストしていません。このギャップを埋めるために、診断から治療までの一連のプロセス全体を模擬する、挑戦的な医療マルチターン指示追従ベンチマークであるMedMT-Benchを導入します。ベンチマークは、シーンごとのデータ合成に対して手動の専門家編集を施すことで構築し、実世界の適用シナリオと高度に整合した400件のテストケースを作成しました。各テストケースは平均22ラウンド(最大52ラウンド)で、指示追従に関する困難な問題の5種類をカバーします。評価のために、インスタンスレベルのルーブリックと原子的なテストポイントを用いた「LLMを裁定者(judge)とする」プロトコルを提案し、専門家による注釈に基づいて検証しました。その際の人間-LLM間の一致率は91.94\%でした。私たちは17の最前線モデルをテストしましたが、いずれもMedMT-Benchでは性能が不十分でした(総合精度は60.00\%未満)。最良のモデルでも59.75\%にとどまりました。MedMT-Benchは、より安全で信頼性の高い医療AIへ向けた今後の研究を推進するための重要なツールとなり得ます。このベンチマークは https://openreview.net/attachment?id=aKyBCsPOHB&name=supplementary_material で利用可能です