立法NERのためのGELATOデータセット

arXiv cs.CL / 2026/3/17

📰 ニュースModels & Research

共有:

要点

GELATOは、第118会期の米国下院と上院の法案をデータセットとして紹介し、立法文書向けに設計された新規の二層構造NERオントロジーを使用している。
本論文は、第一層のエンティティ予測のためにBERT・RoBERTaをファインチューニングし、第二層の予測には最適化されたプロンプトを用いたLLMsを使用する。
結果は、第一層の予測においてRoBERTaがBERTを上回り、第二層の抽出にはLLMsの改善が見られ、立法NERにおける強力なモデルの組み合わせを示唆している。
このデータセットとアプローチは、政府・政策分野における今後の研究および下流NLPタスクの促進を可能にするものとして位置づけられている。

要約: この論文は GELATO（政府、行政機関、立法機関、条約オントロジー）を紹介します。これは米国下院および上院の第118会期の法案データセットを、米国の立法テキスト向けに設計された新しい2レベルの固有表現認識オントロジーを用いて注釈したものです。私たちはこのデータセット上で、さまざまなアーキテクチャとサイズのトランスフォーマーベースのモデル（BERT、RoBERTa）を第一レベル予測のためにファインチューニングします。次に、最適化されたプロンプトを用いたLLMsを用いて第二レベルの予測を完了します。RoBERTaの高い性能とBERTモデルの相対的に低い性能、さらには第二レベルの予測子としてLLMsを適用することは、これらのモデルの組み合わせを抽出ツールとして用いる立法NERや下流タスクの将来の研究を支持します。

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

[D] 他のPhD学生も、準備不足だと感じていて、ハードルが低すぎると思いますか？

Reddit r/MachineLearning

生成AIの価値と導入に関する調査

Reddit r/artificial

2026 LLMベンチマーク対決：Gemini vs Claude vs GPT vs 中国のオープンソース

Dev.to

OpenAIのCEOサム・アルトマン氏、「非常に強力」なモデルを社内で示唆—「経済を大きく加速」

THE DECODER

立法NERのためのGELATOデータセット

要点

関連記事

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

[D] 他のPhD学生も、準備不足だと感じていて、ハードルが低すぎると思いますか？

生成AIの価値と導入に関する調査

2026 LLMベンチマーク対決：Gemini vs Claude vs GPT vs 中国のオープンソース

OpenAIのCEOサム・アルトマン氏、「非常に強力」なモデルを社内で示唆—「経済を大きく加速」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer