要約: この論文は GELATO(政府、行政機関、立法機関、条約オントロジー)を紹介します。これは米国下院および上院の第118会期の法案データセットを、米国の立法テキスト向けに設計された新しい2レベルの固有表現認識オントロジーを用いて注釈したものです。私たちはこのデータセット上で、さまざまなアーキテクチャとサイズのトランスフォーマーベースのモデル(BERT、RoBERTa)を第一レベル予測のためにファインチューニングします。次に、最適化されたプロンプトを用いたLLMsを用いて第二レベルの予測を完了します。RoBERTaの高い性能とBERTモデルの相対的に低い性能、さらには第二レベルの予測子としてLLMsを適用することは、これらのモデルの組み合わせを抽出ツールとして用いる立法NERや下流タスクの将来の研究を支持します。
立法NERのためのGELATOデータセット
arXiv cs.CL / 2026/3/17
📰 ニュースModels & Research
要点
- GELATOは、第118会期の米国下院と上院の法案をデータセットとして紹介し、立法文書向けに設計された新規の二層構造NERオントロジーを使用している。
- 本論文は、第一層のエンティティ予測のためにBERT・RoBERTaをファインチューニングし、第二層の予測には最適化されたプロンプトを用いたLLMsを使用する。
- 結果は、第一層の予測においてRoBERTaがBERTを上回り、第二層の抽出にはLLMsの改善が見られ、立法NERにおける強力なモデルの組み合わせを示唆している。
- このデータセットとアプローチは、政府・政策分野における今後の研究および下流NLPタスクの促進を可能にするものとして位置づけられている。

