機械を測る：生成AIを複数主義的な社会技術システムとして評価する

arXiv cs.AI / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成AIのベンチマークがモデル性能を測るだけでなく、特定の価値や意味を社会技術的なプロセスを通じて「体現」することで、「良い」と見なされるものを形作ると主張している。
それは、機能主義的ベンチマークや処方的アプローチのような既存の評価手法が、多元的な文脈で意味と価値がどのように生み出されるかを見えにくくしている点を批判している。
概念的には、Machine-Society-Human（MaSH）Loopsという枠組みを提案し、生成AIをモデル・ユーザー・機関の間で意味と価値が再帰的に共構成される複数主義的な社会技術システムとして評価する。
方法論として、World Values Surveyデータに基づく分布的評価を用い、構造化されたプロンプトセットとアンカーを考慮したスコアリングを特徴とする「World Values Benchmark」を提示する。
実証例として、初期GPT-3における価値のドリフト分析や、不動産領域での社会技術的評価を扱い、ベンチマークは中立な観察ではなくガバナンスの場だと結論づけている。

Abstract

計測理論において、計測器は単に現実を記録するだけではなく、観測されるものを構成するのに寄与します。生成AIの評価についても同様です。ベンチマークは単に測定するのではなく、モデルがどのように見えるかを形作ります。機能主義的なベンチマークはモデルを孤立した予測器として扱う一方で、規範的アプローチはシステムがどうあるべきかを評価します。いずれも、多元的な文脈において狭い文化的視点が実体化される危険を伴いながら、意味や価値がどのように実践されるのかという社会技術的プロセスを見えなくします。本論文は、そのための記述的な代替案を提示します。生成AIは多元主義的な社会技術システムとして評価されるべきだと主張し、モデル、ユーザー、制度がどのように再帰的に意味と価値を共に構成するのかを追跡するための枠組みである、機械—社会—人間（MaSH）ループを開発します。評価は、出力を判定することから、相互作用の中で価値がどのように実践されるかを検討することへと移行します。 3つの貢献が続きます。概念的には、MaSHループが評価を再帰的で能動的なプロセスとして捉え直します。方法論的には、World Values Benchmarkが、World Values Surveyのデータ、構造化されたプロンプト集合、アンカーに配慮したスコアリングに基づく分布的アプローチを導入します。実証的には、論文はこれらを2つの事例によって示します。GPT-3初期における価値のドリフトと、不動産における社会技術的評価です。最終章では、参加型のリアリズムに依拠して、プロンピングと評価は中立的な観察ではなく、構成的介入であると論じます。本論文は、静的なベンチマークでは生成AIを評価するには不十分だと主張します。責任ある評価には、多元主義的でプロセス志向の枠組みが必要であり、それによって「誰の価値が実践されているのか」を可視化する必要があります。したがって評価はガバナンスの場であり、AIシステムがどのように理解され、導入され、そして信頼されるかを形作ります。