比較の相手は何か？反事実プロンプトにおけるベースラインと評価指標

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、反事実プロンプトの結果が誤って原因づけられる可能性を指摘しており、意図した因子の変更に加えて偶発的な表面表現の変化が混入することで、因果的帰属に必要な前提が崩れると述べています。
MedQAを用いた実験では、患者の性別を変更した場合の予測反転率（14.9%）が、入力のパラフレーズによる反転率（14.1%）と統計的に区別できないことを示し、LLMが性別に特に敏感であるという主張を弱めています。
著者らは、意味を保つパラフレーズによって生じる影響を、統計的検定を通じて対象介入の影響と比較することで、標的因子の因果的影響を頑健に切り分ける枠組みを提案しています。
MedPerturbの再分析では、人口統計や文体に対するモデル感度は大半が消失し、120件中5件のみが有意となる一方、職業経歴の分類では同枠組みにより有意な方向性のある性別バイアスが検出されます。
評価指標について、集計指標よりもサンプルごとの分布ベース指標が大幅に強力であり、回帰指標は効果の方向性と大きさを独自に特徴づけることが示されています。