低資源フランスOSCEに向けたLLMベースのデータ生成と臨床スキル評価

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、実際の注釈付きデータが乏しい低資源環境において、フランス語のOSCEにおける医師–患者の対話トランスクリプトをLLM主導のパイプラインで合成生成することを提案する。
  • また、LLM支援による「シルバーレーベリング」を用いて、シナリオ固有の臨床スキル基準に基づき対話を自動評価する。さらに、理想的な場合だけでなく意図的に崩した(擾乱した)パフォーマンスも混在させ、異なる学生の習熟度レベルを模倣する。
  • 複数のオープンソースおよび商用のLLMに対するベンチマークでは、中規模モデル(≤32Bパラメータ)が合成データにおいてGPT-4oと同等の精度(約90%)に到達できることが示され、実用面での強い実現可能性が示唆される。
  • 著者らは、このアプローチにより、プライバシーを保護しつつローカルに配備可能な、訓練時の評価システムを実現できる可能性があり、フランスの医学教育における反復練習とフィードバックで人間の試験官への依存を低減できると主張している。
  • 本研究は、実際の注釈付きトランスクリプトが不足している状況下でも、フランス語OSCE評価に関する研究のための再現可能なベンチマークを作るための統制された手段として位置づけられている。