Perspective API終了:NLP・CSS・LLM評価における計測インフラの教訓

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 2026年末にPerspective APIが終了することで、NLP、CSS、そしてLLM評価研究で用いられてきた自動的な毒性測定の事実上の標準が失われると論じています。
  • 著者らは、単一のプロプライエタリな計測ツールへの構造的な依存が、モデルのバージョン管理や開示の欠如、論争的な概念に対する企業の運用上の解釈を反映した注釈設計などの形で、認識論的な弱点を生んだと指摘しています。
  • Perspectiveのスコアが評価の「目標」と「標準」を同時に兼ねていたため、更新できないベンチマークや再現不能な結果が生じ得る点を懸念しています。
  • 著者らはPerspectiveの終了を契機に、毒性・ヘイトスピーチのための独立的で妥当、適応可能、そして再現可能な計測インフラの必要性と、技術的・ガバナンス上の要件を提示しています。
  • さらに、Perspective終了後もクローズドソースのLLMに依存し続けると、同様の問題が再生産される恐れがあると警告しています。

概要: 2026年末にPerspective APIが閉鎖されることで、NLP、CSS、LLM評価研究における自動的な毒性測定の事実上の標準として機能してきたものが切り捨てられる。本論文では、当該コミュニティがこの単一の独自ツールにどのような構造的依存を築いてきたかを記述し、その依存が、集合的な研究努力に影響を与えてきた(そして今後も影響し続ける可能性が高い)認識論的な問題の原因になったことを論じる。Perspectiveのモデルは、バージョン管理や開示なしに定期的に更新され、その注釈構造は争点となる概念に対する単一の企業による運用上の実装を反映していた。また、そのスコアは、評価目標と評価基準の双方として同時に用いられた。Perspectiveの閉鎖は、非更新可能なベンチマーク、再現不能な結果、そして最終的には、クローズドソースのLLMに頼ることでこれらの問題を永続化させる危険にさらされた分野を残す。本論文では、Perspectiveの発表した終了を機会として、独立で、有効で、適応可能で、再現可能な毒性およびヘイトスピーチ測定のためのインフラストラクチャを求める。あわせて、本論文で示す技術要件と統治(ガバナンス)要件を提示する。