要旨: \textbf{背景:} オランダの医療コーパスは希少であり、NLP開発が制限されています。 \\ \textbf{方法:} 英語のデータセットを翻訳し、一般的なコーパス内の医療テキストを特定し、オープンなオランダの医療リソースを抽出しました。 \\ \textbf{結果:} 得られたコーパスは、約1億文書にまたがって医療ドメインでpm 350億トークンを含み、Hugging Faceで自由に利用できます。 \\ \textbf{結論:} 本研究は、事前学習および下流のNLPタスクのための、最初の大規模なオランダ語医療言語コーパスを確立します。
オランダの医療分野向け言語コーパス
arXiv cs.CL / 2026/4/29
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は、医療領域におけるNLP開発がこれまで限られてきた背景として、オランダの医療言語コーパスが不足している点を課題として指摘しています。
- 研究では、新しいオランダ語の医療コーパスを、英語データセットの翻訳、一般コーパスからの医療テキスト抽出、オープンなオランダ語の医療リソースの収集を組み合わせて構築しました。
- 作成されたデータセットは規模が大きく、約1000万文書にまたがって約350億トークンを含み、Hugging Faceで無料公開されています。
- 著者らは、このコーパスを事前学習および下流のオランダ語医療NLPタスクのための基盤リソースとして位置づけています。



