NameBERT:LLM補完付きのオープンな学術データで国籍名ベース分類をスケールする

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、小規模で出所に依存したラベル付きデータに頼るのではなく、オープン・アカデミック・グラフ(OAG)から大規模データセットを構築することで、国籍名ベース分類をスケールする手法「NameBERT」を提案する。
  • 低資源国に対して、LLMを「データセット・エンリッチャ(dataset enrichers)」として用い、追加の名前を生成する。これにより、LLMをデプロイ時の直接推論エンジンとして実行する際の高いレイテンシとコストを回避する。
  • 実験では、評価に合成の「テール」名を含める場合に性能向上が特に大きいことが示される。さらに、実データのみを用いる場合でも、テール国の指標に対してはなお控えめながら改善が見られる。
  • 生成されたNameBERTモデルは、純粋なLLMベースのアプローチと比べて大規模推論に対して効率を維持しつつ、インドメインおよびアウト・オブ・ドメインの両タスクで最先端のベースラインを上回る。
  • 本研究は、公平性・バイアス監視、パーソナライズ、ならびに生物医学および社会学的研究における研究用途といった下流ニーズを対象としている。

要旨: 個人名から国籍を推定することは、公平性およびバイアスのモニタリング、パーソナライゼーション、そして生物医学研究や社会学研究における価値あるツールとして、重要な能力である。 しかし、既存の名前ベースの国籍分類器は一般に、比較的小規模または特定の情報源に依存したラベル付きデータセットで訓練されることが多く、これによりカバレッジの欠落が生じ、十分に代表されていない国に対する性能が制限される。 大規模言語モデル(LLM)は、名前に基づく国籍予測において優れたゼロショット性能を示す一方で、その計算コストとレイテンシの高さゆえに、リアルタイムかつ大規模な展開には実用的ではない。 本研究では、Open Academic Graph(OAG)から大規模な名前―国籍データセットを作成し、推論エンジンとしてではなくデータセット拡充器としてLLMを活用する枠組みを提案する。 我々は、低資源国をLLMが生成した名前で補強し、実データおよび合成テールのテストセットで評価する。 評価に合成テールの名前が含まれる場合、拡充によって大きな改善が得られることを見出した。さらに、そうでない場合でもテール国の指標に対しては控えめながら向上が得られる。 全体として、NameBERTモデルは、LLMに比べて大規模推論において効率性を維持したまま、入ドメインおよびアウトオブドメインの両方のタスクにおいて、最先端のベースラインよりも有意に高い精度を達成する。