Chinese-SkillSpan:求人広告からのESCO整合的コンピテンシー抽出のためのスパンレベル・データセット

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、求人広告から中国語のスキル情報を抽出することを目的とした、採用テキスト向けの最初の中国語JobSkillNERデータセット「Chinese-SkillSpan」を提案しています。
  • 中国の求人票向けに調整したアノテーション指針を定義し、LLMを活用したマクロ–ミクロの協調アノテーション・パイプラインと、専門家による文単位の判定で初期結果を精緻化する手法を採用しています。
  • 2014〜2025年の期間にわたり4つの主要な求人プラットフォームから収集した20,000件超のインスタンスをアノテーションし、ESCO職業スキル標準に4つの次元(知識・技能・横断的コンピテンシー・言語コンピテンシー)で整合させています。
  • 実験結果から、データセットがモデルの学習と評価に有効であり、中国語のJobSkillNER資源の大きな欠落を埋め、インテリジェント・リクルートメント研究のベンチマークになることが示されています。
  • コードとデータは公開されており、今後の研究と再現性を支えます。