LLM中心のマルチモジュール手法による求人票からのスキル抽出

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 求人広告からスキルをスパン(範囲)単位で抽出し、候補者–職種マッチングや労働市場分析を支えるLLM中心の枠組みとして、SRICLが提案された。
  • SRICLは、ESCOからのセマンティック・リトリーバル、インコンテキスト学習、教師あり微調整を組み合わせ、フォーマット制約付きプロンプトでスパン境界のブレを抑え、誤りを減らす。
  • 出力の整合性を高めるために決定論的な検証器を導入し、BIOの合法性、非重複、スパンのペアリング妥当性といったルールを強制しつつ、再試行は最小限にする。
  • 6つの公開されたスパンラベル付きコーパス(産業分野・言語・ドメインをまたぐ)で、GPT-3.5のプロンプトベースラインに比べてSTRICT-F1が大幅に改善し、不正タグやハルシネーションによるスパンを大きく減らした。
  • この手法は、長尾語や分布シフトが起きやすい低リソースの多ドメイン環境でも、文レベルの実運用をより確実にすることを目指している。

要旨: 求人広告からのスパン単位のスキル抽出は、候補者と職種のマッチングや労働市場の分析の基盤となっています。しかし、生成型大規模言語モデル(LLM)は、とりわけロングテールの用語やドメイン間のシフトがある場合に、不正なスパン、境界のドリフト、そして幻覚(ハルシネーション)を生じがちです。私たちは、決定論的な検証器を伴う、LLM中心の枠組みSRICLを提案します。SRICLは、意味的リトリーバル(SR)、インコンテキスト学習(ICL)、および教師あり微調整(SFT)を組み合わせ、さらに決定論的な検証器で補強します。SRは、ESCOからドメイン内の注釈付き文および定義を取り込み、境界を安定させ、連結(コーディネーション)を扱える、形式制約付きプロンプトを形成します。SFTは出力挙動を整合させ、検証器は最小限の再試行で、ペアリング、非重複、およびBIO合法性を強制します。産業領域および言語をまたいだ、6つの公開スパンラベル付きコーパスにおいて、SRICLはGPT-3.5によるプロンプト基準に比べて大幅なSTRICT-F1の改善を達成し、無効なタグや幻覚されたスパンを鋭く減少させます。これにより、リソースが限られた多領域環境においても、文単位で信頼できる導入を可能にします。