CitiLink-Minutes: 地方自治体の議事録を対象とした多層アノテーション付きデータセット
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、地域統治に関する記録のNLP/IR研究を改善することを目的とした、ヨーロッパポルトガル語の120件の地方自治体の会議議事録からなる多層アノテーション付きデータセット「CitiLink-Minutes」を紹介する。
- このデータセットには100万トークン以上が含まれ、3つの次元(メタデータ、議論の対象、投票結果)にわたる包括的で構造化されたアノテーションが施されており、38,000件以上のアノテーションがある。
- 個人識別子は秘匿化されており、各議事録は訓練を受けた2名のアノテータによって手作業でアノテーションされ、さらに経験豊富な言語学者によるキュレーションが加えられている。
- CitiLink-MinutesはFAIR原則に基づいて公開されており、メタデータ抽出、トピック分類、投票ラベリングといったタスクに向けたベースライン結果が付属する。
- 多層アノテーション付きの公式な書面議事録をリンクして提供することで、このデータセットは下流の計算モデルを支援し、地方自治体の意思決定へのより透明なアクセスを可能にする位置づけにある。