大規模言語モデルは有効な人手アノテーション支援者だが、独立したアノテータとしては不十分

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、無関係な文書を除外し、同一の出来事に関する文書を統合したうえで、出来事をアノテーションする「統合的なイベントアノテーション」ワークフローを評価している。
  • LLMベースの自動アノテーションは、従来のTF-IDF系手法やイベントセットキュレーションよりも優れている一方、専門家の人手アノテーションと比べると信頼性はまだ低い。
  • LLMを専門家主導のイベントセットキュレーションに組み込むことで、変数アノテーションにおける専門家の作業時間と精神的負担を大きく減らせることが示されている。
  • さらに、LLMに出来事変数の抽出をさせて専門家のアノテーションを補助すると、完全に自動化されたLLMによるアノテーションよりも、抽出された変数との一致度が高くなる。
  • 総じて、LLMは独立したコーダではなく、アノテーション支援者として用いるのが適しているという示唆が得られる。

Abstract

イベントの注釈付けは、市場の変化を識別し、速報ニュースを監視し、社会学的な傾向を理解するうえで重要である。専門家による注釈付けがゴールドスタンダードを設定する一方で、人手によるコーディングは高価で非効率である。単一の文脈に焦点を当てた情報抽出の実験とは異なり、本研究では、無関係な文書を除去し、同一の出来事に関する文書を統合し、イベントを注釈付けするという、全体的なワークフローを評価する。LLM(大規模言語モデル)に基づく自動注釈は、従来のTF-IDFベースの手法やイベント集合のキュレーションよりも優れているが、人間の専門家と比べると注釈者としては依然として信頼できない。しかし、イベント集合のキュレーションにおいて専門家を支援するためにLLMを追加すれば、変数注釈に必要な時間と精神的負荷を削減できる。専門家の注釈者を支援するために、LLMを用いてイベントの変数を抽出すると、完全に自動化されたLLMによる注釈の場合よりも、抽出された変数についての一致度が高くなる。