低リソース言語におけるハイブリッド手法による固有表現抽出(NER)
arXiv cs.AI / 2026/5/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ルールベースでラベルを削減しつつ、事前学習済み言語モデルを微調整して用いる、低リソースなベトナム語固有表現抽出(NER)のためのハイブリッド・ニューラルシンボリック枠組みを提案している。
- 2段階のパイプラインとして、まずルールで関連する/特殊カテゴリをグループ化してラベルの複雑さを下げ、次にポストプロセッシングで細粒度のラベルを復元して実用性を確保する。
- 限られた注釈データとラベル集合の不均一性に対処するため、LLM(大規模言語モデル)を用いたスケーラブルなデータ拡張戦略により、再アノテーションを大規模には行わずにラベル集合を拡張する。
- ロジスティクス、野生動物、医療などの5つのドメイン特化データセットで評価し、強力なRoBERTaベースラインを大きく上回る結果を示した。
- 例えばCustomer Serviceで90%(83%から)、GAMで84%(73%から)、PhoNER_Covid19で94%(91%から)といったF1の改善により、専門領域におけるベトナム語NERで有効性が確認された。




