アラビア語の医療テキスト生成のための重症度ベースのカリキュラム学習戦略
arXiv cs.CL / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、アラビア語の医療テキスト生成/QAの学習における制約として、既存手法が臨床上の重症度の違いにもかかわらず、すべてのサンプルを同等に扱っている点を取り上げる。
- 重症度ベースのカリキュラム学習戦略を提案し、軽症(Mild)から中等症/重症(Moderate/Critical)へ段階的に微調整を進めることで、モデルがより難しく高リスクな状況に取り組む前に基本的な医療パターンを学習できるようにする。
- 本手法は、3つの重症度ラベル(Mild, Moderate, Critical)によるデータセットの分割に依存しており、これは本研究で開発したルールベースの注釈手法によって付与された。
- MAQAデータセットの一部に対する実験では、複数のモデルで一貫した改善が示されており、ベースラインに対しておよそ+4%〜+7%、従来の微調整に対しておよそ+3%〜+6%の向上が報告されている。
- 本研究は、アラビア語における複雑で潜在的に高リスクな臨床コンテンツをモデルがより適切に扱えるようにし、信頼性の高い母語でのヘルスケアガイダンスの実現を目指す。
