広告

MiNER:議事録からメタデータを抽出するための2段階パイプライン

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、表記が標準化されていないことが多い多様な自治体の会議議事録から、会議番号、日付、場所、参加者、時間範囲といった主要メタデータを抽出するための2段階パイプライン「MiNER」を提案する。
  • 第1段階では、トランスフォーマーに基づく質問応答モデルが、メタデータを含む開始・終了のテキスト範囲(スパン)を特定し、その後BERTimbauおよびXLM-RoBERTaのバリアントを用いたエンティティ抽出を行う(任意でCRF層を追加)。
  • エンティティ抽出は、自治体の議事録ドメインにおけるきめ細かな認識を改善するために、脱語彙化(deslexicalization)によって強化される。
  • 著者らは、オープンウェイト(Phi)およびクローズドウェイト(Gemini)のLLMの両方をベンチマークし、予測性能に加えて推論コストとカーボンフットプリントを比較する。
  • 結果は、対象ドメイン内では高い精度を示す一方で、言語的な複雑さと文書のばらつきによって自治体を跨いだ一般化は弱いことを明らかにした。また、本研究はこのメタデータ抽出タスクに関する初のベンチマークを構築した。

概要: 都市(自治体)の会議議事録は、地方行政を担う公的文書であり、多様な形式と書きぶりを示します。効果的な情報検索(IR)には、会議番号、日付、場所、参加者、開始/終了時刻といったメタデータの特定が必要ですが、これらはほとんど標準化されておらず、自動的に抽出するのも容易ではありません。既存の固有表現認識(NER)モデルは、このタスクに適していません。というのも、そのような領域固有のカテゴリに適応していないためです。本論文では、都市(自治体)の議事録からメタデータを抽出するための二段階パイプラインを提案します。まず、質問応答(QA)モデルが、メタデータを含む冒頭および末尾のテキスト区間を特定します。次に、トランスフォーマーベースのモデル(CRF層あり/なしのBERTimbauおよびXLM-RoBERTa)を用いて、きめ細かなエンティティ抽出を行い、さらに脱語彙化(deslexicalization)によって強化します。提案手法の評価のために、オープンウェイト(Phi)とクローズドウェイト(Gemini)の両方のLLMをベンチマークし、予測性能、推論コスト、カーボンフットプリントを評価します。結果は、より大規模な汎用LLMよりも優れ、強い領域内性能を示しました。しかし、自治体間での評価では、自治体記録のばらつきと言語的複雑さを反映して、汎化が低下していることが分かりました。本研究は、都市(自治体)の会議議事録からメタデータを抽出するための初のベンチマークを確立し、この領域における今後の研究の堅固な基盤を提供するものです。

広告