低リソース言語におけるハイブリッド手法による固有表現抽出(NER)

arXiv cs.AI / 2026/5/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ルールベースでラベルを削減しつつ、事前学習済み言語モデルを微調整して用いる、低リソースなベトナム語固有表現抽出(NER)のためのハイブリッド・ニューラルシンボリック枠組みを提案している。
  • 2段階のパイプラインとして、まずルールで関連する/特殊カテゴリをグループ化してラベルの複雑さを下げ、次にポストプロセッシングで細粒度のラベルを復元して実用性を確保する。
  • 限られた注釈データとラベル集合の不均一性に対処するため、LLM(大規模言語モデル)を用いたスケーラブルなデータ拡張戦略により、再アノテーションを大規模には行わずにラベル集合を拡張する。
  • ロジスティクス、野生動物、医療などの5つのドメイン特化データセットで評価し、強力なRoBERTaベースラインを大きく上回る結果を示した。
  • 例えばCustomer Serviceで90%(83%から)、GAMで84%(73%から)、PhoNER_Covid19で94%(91%から)といったF1の改善により、専門領域におけるベトナム語NERで有効性が確認された。

Abstract

Named Entity Recognition (NER) は、情報抽出や会話型AIなど幅広い応用をもつ自然言語処理の重要な構成要素である。しかし、低リソース言語における特定領域でのNERは、注釈付きデータの不足やラベル集合の不均一性といった課題に直面している。本研究は、ルールベースの処理と深層学習モデルを統合したハイブリッド・ニューラル・シンボリック・フレームワークを提案することで、ベトナム語NERにおけるこれらの課題に取り組む。中核となるアイデアは、二段階パイプラインである。まず、ルールベースのコンポーネントが、関係カテゴリおよび特殊カテゴリをグルーピングすることでラベルの複雑さを低減する。次に、事前学習済み言語モデルを微調整して、高精度な抽出を行う。その後、微細なラベルを復元するための後処理モジュールを利用し、アプリケーションレベルでの使いやすさのための表現力を維持する。データ不足を緩和するために、Large Language Models(LLM)を活用した拡張可能なデータ拡張戦略を導入し、完全な再注釈を行わずにラベル集合を拡張する。この点は、本研究の大きな新規性である。本手法の有効性は、物流、野生生物、医療を含む5つの特定領域データセットにおいて評価した。実験結果は、強力なRoBERTaベースラインに対して大幅な改善を示している。具体的には、提案システムは、Customer ServiceでF1スコアが90%(83%から)となり、GAMで84%(73%から)となり、AI Fluentで83%(80%から)となり、PhoNER_Covid19で94%(91%から)となり、Rare Wildlifeで60%(36%から)となった。これらの結果は、ハイブリッドアプローチがベトナム語の言語的な複雑さと、専門領域における文脈上のニュアンスを効果的に捉えることを確認しており、低リソースNER研究への堅牢な貢献を提供する。