概要: 私たちは人気のあるLLMの中に存在し、特定のタイプの性別偏見の存在と持続性を調査し、RealWorldQuestioning(HuggingFaceで公開)として開発され、ビジネスと健康の文脈における四つの主要領域、教育、仕事、個人財務管理、一般的な健康にわたる実世界の質問から成っています。私たちはエントロピー偏見を定義して研究します。これは、ユーザーが実際に投げた質問に対してLLMが生成する情報量の不一致として定義します。これを四つの異なるLLMを用いてテストし、生成された回答を質的・量的の両方の面から評価しました。評価にはChatGPT-4oを用い(「LLM-ジャッジ」として)行いました。私たちの分析(指標ベースの比較と「LLM-ジャッジ」評価)によれば、カテゴリレベルで男性と女性の回答に顕著なバイアスは見られないことを示唆しています。しかし、より細かな粒度(個々の質問レベル)では、男性と女性の回答に大きな差異が多くのケースで見られ、それらはしばしば互いに打ち消し合います。なぜなら、一部の回答が男性にとってはより適しており、逆に女性には別の回答が適しているためです。これは、これらのツールの典型的なユーザーが、生活の中で共通ながら重要な領域の各々で、複数の異なる質問をするのではなく、特定の1問のみをすることが多いからです。私たちは、二つの性別の回答を反復的に統合して最終結果を生成する、単純なデバイアス除去のアプローチを提案します。私たちのアプローチは、単純でプロンプトベースのデバイアス除去戦略がLLMの出力を効果的にデバイアスし、結果として、情報量の高い回答を生み出すことを実証しています。78%のケースで、両方の性別バリアントより情報内容が高くなり、残るケースでは一貫して均衡した統合を達成します。
LLMsには性別バイアス(エントロピー偏り)はあるのか?
arXiv cs.CL / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究はエントロピー偏りを定義し、RealWorldQuestioningというベンチマークデータセットをHuggingFace上で公開しました。これは教育、職業、個人の財務管理、一般的な健康の4分野におけるLLMの情報内容を研究するためのものです。
- 本研究は4つの大規模言語モデルを評価し、回答を定性的にも定量的にも評価する外部ジャッジとしてChatGPT-4oを用いています。
- カテゴリレベルでは有意な性別バイアスは見られませんでしたが、質問ごとのレベルでは顕著な性別差が現れ、全体を集計するとしばしば相殺されることがありました。
- プロンプトに基づくデバイアス緩和アプローチを提案し、性別の異なる回答を統合することで、単一性別バリアントよりも78%のケースで情報量が高くなり、残りのケースでは結果が均衡化されました。