HUKUKBERT: トルコ法のためのドメイン特化言語モデル
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsModels & Research
要点
- HukukBERTは、ハイブリッドなドメイン適応型事前学習(DAPT)により、18GBのクリーン化したトルコ語法務コーパスで学習された、トルコ法領域向けのドメイン特化言語モデルとして導入される。
- 本論文では、複数のマスキング戦略(Whole-Word、Token Span、Word Span、Keywordマスキング)と、48KのWordPieceトークナイザを組み合わせた、ターゲット指向の事前学習アプローチを詳細に述べ、一般的なモデルおよび既存のトルコ法務モデルの両方と比較している。
- トルコの裁判所判決に関する、新たに提案されたLegal Cloze Testベンチマークにおいて、HukukBERTはTop-1精度84.40%を達成し、最先端の性能を確立する。
- トルコの公的裁判所判決の下流タスクとしての構造的セグメンテーションでは、本モデルは文書通過率92.8%を達成し、こちらでも新たな最先端を報告している。
- 著者らは、名寄せ(NER)、判決予測、法務文書分類など、将来のトルコ法務NLP研究を可能にすることを目的としてHukukBERTを公開する。




