AISafetyBenchExplorer: AI安全ベンチマークのメトリクスに配慮したカタログが、分断された計測と脆弱なベンチマーク統治を明らかにする
arXiv cs.AI / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、2018〜2026年に公開された195件のAI安全ベンチマークを対象にした、ベンチマーク・メトリクス・リポジトリの各レベルでメタデータを備える体系的なカタログ「AISafetyBenchExplorer」を提示する。
- 著者らは、このカタログを用いて、ベンチマークの増殖が標準化を上回って進んだ結果として、LLMの安全性がどのように運用・判断されるかに分断が生じていることを示す。
- 報告された状況は不均一であり、中程度の複雑さのベンチマークは多い一方で、「人気(Popular)」ティアに入るものはごく少数である。また、英語のみでの評価への強い偏りも見られる。
- 本研究では、統治および耐久性に関する問題が頻繁に起きていることが判明する。具体的には、メンテナンスのない(古い)GitHubリポジトリやHugging Faceのデータセットが多数あり、公開後の後方支援(スチュワードシップ)の弱さが示唆される。
- メトリクスのレベルでは、一般的なラベル(例:精度/ F1 /安全スコア)が、実際には実質的に異なる採点者(ジャッジ)、集約ルール、脅威モデルを隠していることが多く、その結果、研究間での比較可能性が制限される。




