要旨: 人種格差を推定するには個人レベルの人種データが必要ですが、そのような情報の収集がセンシティブであるため、利用できないことがよくあります。この問題に対処するため、多くの研究者がベイズ流の改良型姓ジオコーディング(BISG)を利用していますが、これは国勢調査の姓データに決定的に依存してきました。残念ながら、これらのデータは人種と姓の関係を一般的な姓についてのみ捉えており、米国人口の約10%を除外しています。標準的なBISGの実装は、このような除外された珍しい姓の場合に情報を持たない汎用の事前分布に依存しているため、その姓を持つ個人では予測性能が大幅に低下することを示します。この制限に対処するため、事前学習済みのテキスト埋め込みを用いて名前を密ベクトルとして表し、国勢調査(2020年)の姓データおよび名データでニューラルネットワークを学習して、国勢調査に掲載されていない名前の人種確率を推定する、埋め込みベースのBISG(eBISG)を提案します。比較するのは5つのアプローチです。すなわち、姓のみを用いる標準的BISG、名の確率を取り込むBIFSG、未掲載の姓に対する姓埋め込み、姓と名の埋め込みを組み合わせるもの、そして南部諸州の有権者名簿データで学習したフルネーム埋め込み(名前構成要素間の相互作用を捉える)です。eBISGの各改良により人種予測が段階的に改善し、特に、国勢調査リストに姓が含まれないヒスパニック系およびアジア系の有権者において、フルネーム埋め込みが最大の向上をもたらすことを示します。
埋め込みモデルを用いた確率的な人種予測の改善
arXiv cs.CL / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、Bayesian Improved Surname Geocoding(BISG)が抱える大きな制約として、Censusの姓データが米国人口の約10%を取りこぼす点を問題として取り上げています。
- 取りこぼされた姓に対して標準BISGが「無情報なジェネリック・プライア」を用いるため、予測精度が大きく低下する仕組みを示しています。
- 著者らは埋め込みパワードBISG(eBISG)を提案し、事前学習済みのテキスト埋め込みで名前を密ベクトルとして表現し、2020年のCensusの姓・名データでニューラルネットを学習して、Censusに載っていない名前の人種確率を推定します。
- 評価では、姓のみのBISGから、姓埋め込み、姓+名埋め込み、さらに名前全体の埋め込み(南部州の投票者ファイルで学習して成分間の相互作用を捉える)まで、5つの手法を比較しています。
- 結果として、eBISGの各改良段階で精度が順次向上し、特にCensusに存在しない姓を持つヒスパニック系・アジア系の有権者で、名前全体の埋め込みが最も大きな改善をもたらしたと報告しています。



