広告

人間-AIの安全性を評価する:有害な能力向上を測定するための枠組み

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最先端AIの安全性評価を、静的なベンチマークやレッドチーミングから、人間中心のリスク計測へと転換すべきだと主張する。
  • 「有害な能力向上(harmful capability uplift)」を中核となる指標として提案する。これは、最先端モデルの使用によって、従来のツールではすでに可能な範囲を超えて、ユーザーが害を与える能力がどれだけ限界的(marginal)に増加するかを意味する。
  • この枠組みは既存の社会科学研究に基づいており、この向上を体系的に測定するための方法論的なガイダンスを含む。
  • 著者らは、開発者、研究者、助成機関、規制当局に向けて、有害な能力向上の評価を標準化するための実行可能な次のステップを示している。

Abstract

現在の最先端のAIセーフティ評価は、静的ベンチマーク、第三者による注釈、およびレッドチーミングを重視している。本論文の立場表明では、AIセーフティ研究は、人間中心の評価に焦点を当てるべきだと主張する。すなわち、有害な能力の向上(harmful capability uplift)を測定する評価である。これは、フロンティアモデルによって、ユーザーが従来のツールで既に可能になっている範囲を超えて、害を加える能力がどれだけ限界的に増加するかを示すものだ。我々は、有害な能力の向上を中核となるAIセーフティ指標として位置付け、先行する社会科学研究に基づいてそれを根拠づけ、体系的な測定のための具体的な方法論的ガイダンスを提示する。有害な能力の向上の評価を標準的な実践にするため、開発者、研究者、助成機関、および規制当局に向けた実行可能な手順で結論を述べる。

広告