EuropeMedQA研究プロトコル:言語モデル評価のための多言語・マルチモーダル医療試験データセット

arXiv cs.CL / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • EuropeMedQAの研究プロトコルは、イタリア、フランス、スペイン、ポルトガルの公式規制試験を出典とする、多言語かつマルチモーダルな医療試験データセットを新たに提示する。
  • 現行のLLMによる医療評価が、非英語での性能低下やマルチモーダルな診断(視覚推論)課題で課題を抱える点に焦点を当てている。
  • FAIRデータ原則およびSPIRIT-AIガイドラインに沿った厳密なキュレーション手順と、自動翻訳パイプラインを通じた言語間比較の枠組みが示されている。
  • マルチモーダルLLMを、ゼロショットかつ厳密に制約されたプロンプト戦略で評価し、言語横断転移と視覚推論を測定する計画である。
  • このベンチマークは、汚染(コンタミネーション)耐性を目指し、欧州の臨床実務の複雑さをより反映することで、汎用性の高い医療AIの発展を促すことを狙っている。

Abstract

大規模言語モデル(LLM)は英語中心の医学試験において高い能力を示している一方で、非英語の言語やマルチモーダルな診断タスクに直面すると、その性能が低下することが多い。本研究のプロトコルは、イタリア、フランス、スペイン、ポルトガルの公式な規制試験に由来する、最初の包括的な多言語・マルチモーダル医学試験データセットであるEuropeMedQAの開発を記述する。FAIRデータ原則およびSPIRIT-AIガイドラインに従い、比較分析のための厳密なキュレーション手順と自動翻訳パイプラインについて述べる。さらに、ゼロショットで、厳密に制約されたプロンプト戦略を用いて、現代的なマルチモーダルLLMを評価し、言語横断転移と視覚推論を検討する。EuropeMedQAは、欧州の臨床実務の複雑さを反映し、より汎化可能な医療AIの開発を促進する、汚染に耐性のあるベンチマークを提供することを目指している。