JUBAKU:日本のLLMにおける文化的に根ざしたステレオタイプをあぶり出すための敵対的ベンチマーク

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、英語のバイステストを翻訳して適応した手法では見落とされがちな、文化的に根ざしたステレオタイプを検出するための、日本文化に特化した敵対的ベンチマーク「JUBAKU」を提案する。
  • JUBAKUは10の文化カテゴリをカバーし、潜在する社会的バイアスを日本語LLMのふるまいから意図的に浮かび上がらせるために、日本語母語話者のアノテータが対話シナリオを手作業で作成している。
  • 日本語LLM9モデル(加えて英語から適応した3モデル)を評価したところ、多くのシステムでJUBAKUにおいて明確なバイアスが観測され、他のベンチマークではより良い性能を示していたにもかかわらず、平均精度は23%で、ランダム基準の50%に対して低かった。
  • 人手によるアノテータは「バイアスのない応答」を識別するのに91%の精度を達成しており、ベンチマークの信頼性と敵対的有効性を裏付けている。