人間はまだループに必要なのか?敵意検出におけるアクティブラーニングでの人手とLLMによるアノテーションの比較
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、命令にチューニングされたLLMが、反移民の敵意検出におけるアクティブラーニング(AL)ループで人手ラベルの代替となり得るか、また、LLMによってコーパスの大部分を安価にラベル付けできる場合にALがそれでも必要かを検討する。
- 著者らは、新たなデータセット(277,902件のドイツの政治的TikTokコメント、LLMラベル25,974件、人手アノテーション5,000件)を用い、4種類のエンコーダに対して7つのアノテーション戦略を比較する。
- GPT-5.2のラベル付けコストが43ドルのモデルは、人手アノテーションで316ドルかかるモデルと同等のマクロF1を達成し、LLMによるラベリングの強い費用対効果の可能性が示される。
- 著者らは、ALが「事前に豊富なラベルプール」に対してはランダムサンプリング以上の優位性をほとんど示さず、また同程度の予算下では、ALが完全なLLMアノテーションよりも低いF1をもたらし得ることを見出す。
- 集計されたマクロF1スコアは類似していても、誤りのプロファイルは異なる。LLMで学習したモデルは肯定クラスを過剰に予測し、その食い違いはトピック的に曖昧なケースに集中している。これは、マクロF1だけでなく、許容できる誤りの構造を考慮してラベリング戦略を設計すべきことを示唆する。




