低資源フランスOSCEに向けたLLMベースのデータ生成と臨床スキル評価

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、実際の注釈付きデータが乏しい低資源環境において、フランス語のOSCEにおける医師–患者の対話トランスクリプトをLLM主導のパイプラインで合成生成することを提案する。
また、LLM支援による「シルバーレーベリング」を用いて、シナリオ固有の臨床スキル基準に基づき対話を自動評価する。さらに、理想的な場合だけでなく意図的に崩した（擾乱した）パフォーマンスも混在させ、異なる学生の習熟度レベルを模倣する。
複数のオープンソースおよび商用のLLMに対するベンチマークでは、中規模モデル（≤32Bパラメータ）が合成データにおいてGPT-4oと同等の精度（約90%）に到達できることが示され、実用面での強い実現可能性が示唆される。
著者らは、このアプローチにより、プライバシーを保護しつつローカルに配備可能な、訓練時の評価システムを実現できる可能性があり、フランスの医学教育における反復練習とフィードバックで人間の試験官への依存を低減できると主張している。
本研究は、実際の注釈付きトランスクリプトが不足している状況下でも、フランス語OSCE評価に関する研究のための再現可能なベンチマークを作るための統制された手段として位置づけられている。

AI Business

AI Business

日経XTECH

日経XTECH

日経XTECH