帰属理論に基づく推論における社会的バイアスを評価するための日本のベンチマーク

arXiv cs.CL / 2026/4/3

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の日本語LLMの社会的バイアス・ベンチマークがしばしば不十分であると主張する。理由は、それらが主に英語データを翻訳したものに依存しており、日本固有の文化的文脈が見落とされがちだからである。
帰属理論を用いて、推論過程におけるバイアス（誰が非難される／行為を誰に帰属させるか）を評価する日本語データセット JUBAKU-v2 を導入しつつ、最終結論は固定したままとする。
JUBAKU-v2 には216件の例が含まれており、日本における内集団と外集団のあいだの文化的なバイアスを反映することを意図している。
実験の結果、このベンチマークは、従来のベンチマークよりもモデルの性能差をより敏感に識別できることが示される。特に、出力だけでなく、推論の中に埋め込まれたバイアスのパターンを検出する点で有効である。
本研究は、推論の中間ステップにおける「隠れた」バイアスのシグナルを捉えることで、LLMに対するよりきめ細かな公平性評価を重視している。