MedMT-Bench:医療シナリオにおいてLLMは長い多回ターンの会話を記憶し理解できるか?
arXiv cs.CL / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、長文コンテキストの記憶力、干渉への頑健性、模擬的な診断・治療の会話における安全性に関わる挙動を厳密に検証する新しい医療向けマルチターン指示追従ベンチマーク「MedMT-Bench」を提案する。
- MedMT-Benchには400件のテストケースが含まれ、平均22ラウンド(最大52ラウンド)で構成される。これは、場面ごとのデータ合成により生成され、実世界の医療ワークフローに合わせるために手動の専門家編集で洗練されている。
- 評価では、インスタンス単位のルーブリックと原子的な採点項目を用いるLLM-as-judge(LLMを裁定者として用いる)プロトコルを採用する。この採点は専門家による注釈と照合され、人手とLLMの一致率は91.94%と報告されている。
- 17の最先端モデルで検証したところ、いずれのシステムも性能が不足しており、全体の精度は60%未満、最良結果でも59.75%にとどまった。これにより、現行モデルは長い多回ターンの医療的推論と指示追従に依然として課題を抱えていることが示される。
- 著者らは、MedMT-Benchを、より安全で信頼性の高い医療AIシステムに向けた今後の研究を導くための、特化したツールとして位置付ける。