人間-AIの安全性を評価する:有害な能力向上を測定するための枠組み
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、最先端AIの安全性評価を、静的なベンチマークやレッドチーミングから、人間中心のリスク計測へと転換すべきだと主張する。
- 「有害な能力向上(harmful capability uplift)」を中核となる指標として提案する。これは、最先端モデルの使用によって、従来のツールではすでに可能な範囲を超えて、ユーザーが害を与える能力がどれだけ限界的(marginal)に増加するかを意味する。
- この枠組みは既存の社会科学研究に基づいており、この向上を体系的に測定するための方法論的なガイダンスを含む。
- 著者らは、開発者、研究者、助成機関、規制当局に向けて、有害な能力向上の評価を標準化するための実行可能な次のステップを示している。



