LLMが生成するコードにおける社会的バイアス:ベンチマークと低減手法

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、7つの人口統計的次元にまたがる343件の実世界のコーディング課題からなるSocialBias-Benchを提案し、単なる機能的正しさを超えてLLM生成コードの社会的バイアスを評価する枠組みを示しています。
  • 4つの主要なLLMを検証した結果、最大60.58%に達するCode Bias Scoreなど、モデルがコード生成に不公平な前提を体系的に取り込むことが明らかになりました。
  • Chain-of-Thought推論やフェアネスのペルソナ付与といった一般的なプロンプトレベルの低減策は、むしろバイアスを増幅し得ることが示されています。
  • マルチエージェントの構造化プロセスは、初期役割が「コードが考慮すべき/すべきでない属性」を正しく切り分けられる場合に限ってバイアスを低減しますが、全エージェントに明示的なフェアネス指示を追加すると悪化します。
  • これらの限界を踏まえ、著者らは既存のコード生成パイプラインに差し込めるFairness Monitor Agent(FMA)を提案し、実行可能なテストスイートを要せず、タスク記述を解析して違反を反復的に検出・修正することで、開発者エージェント単独比でバイアスを65.1%削減しつつ正解率を75.80%から83.97%へ改善し、他の手法を上回る結果を示しました。

Abstract

大規模言語モデル(LLM)は、人口統計上の公平性が重要となる人間中心のアプリケーション向けにコードを生成するために、ますます多く導入されつつあります。しかし、既存の評価は機能的な正しさにほぼ専ら焦点を当てており、LLMが生成するコードに含まれる社会的バイアスは十分に検討されていません。私たちは、先行研究であるSolarを発展させ、7つの人口統計的次元にまたがる実世界のコーディング課題343件からなるベンチマークであるSocialBias-Benchを用いて、包括的な経験的研究を行います。4つの著名なLLMを評価したところ、すべてのモデルにおいて深刻なバイアスが見られ、Code Bias Scoreは最大60.58%に達しました。さらに、Chain-of-Thought(連鎖的思考)による推論や公平性ペルソナの割り当てといった標準的なプロンプトレベルの介入は、バイアスを減らすどころか、むしろバイアスを増幅させてしまうことを示します。次に、構造化されたマルチエージェントのソフトウェアプロセスの枠組みが公平性を改善できるかを調査し、コードが「考慮すべきではないもの」を含めないように、初期の役割が適切に範囲を定める場合に、構造化されたパイプラインはバイアスを低減することを見いだします。ただし、すべてのエージェント役割に対して明示的な公平性指示を追加すると、それを与えない場合よりも結果が悪化し、責任が拡散して問題が解消されていないことが示唆されます。これらの制約に対処するために、既存のコード生成パイプラインへそのまま差し込めるモジュール構成要素であるFairness Monitor Agent(FMA)を提案します。FMAはタスク記述を分析して、考慮または制限されるべき属性を特定し、その後、実行可能なテストスイートを必要とせずに、反復的なレビュー過程によって違反を検出して是正します。343件すべての課題で評価した結果、FMAは開発者エージェントのみの場合と比べてバイアスを65.1%低減し、機能的正しさを75.80%から83.97%へ改善し、他の検討したすべてのアプローチを上回りました。