広告

ProText: 長文テキストにおける(ミス)ジェンダリングを測定するためのベンチマークデータセット

Apple Machine Learning Journal / 2026/3/31

📰 ニュースModels & Research

要点

  • ProTextは、長文テキスト環境における(ミス)ジェンダリング行動を測定するために特化して設計されたベンチマークデータセットとして導入されます。
  • 2026年3月に発表された本論文は、公平性(フェアネス)およびNLP研究の文脈に位置づけられており、生成または処理されたテキストにおけるジェンダー関連の誤りを評価することに焦点を当てています。
  • 長文ドキュメントを対象とすることで、従来の短文ベンチマークでは表面化しにくい性能課題を捉えることを目指します。
  • 本出版物は、arXivのリンクを通じて、研究者や実務者がジェンダリングの頑健性についてシステムを評価・比較するための入口を提供します。
  • このデータセットは、拡張された自然言語コンテンツを生成または分析するNLPモデルに対して、より厳密な公平性評価を支援することを意図しています。

多様な文体をもつ英語の長文テキストにおけるジェンダリングおよびミスジェンダリングを測定するためのデータセットProTextを導入します。ProTextは3つの次元から構成されます。すなわち、テーマ名詞(氏名、職業、肩書、親族関係の用語)、テーマカテゴリ(ステレオタイプ的に男性、ステレオタイプ的に女性、ジェンダー非特定/ジェンダーに紐づかない)、および代名詞カテゴリ(男性形、女性形、ジェンダー非特定、なし)です。このデータセットは、最先端の大規模言語モデルを用いた要約や書き換えといったテキスト変換における(ミス)ジェンダリングを探ることを目的としており、従来の代名詞解決ベンチマークを超え、さらにそれ以上に…

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

広告