DART:差分認識型LLMにおける危害ドリフトをDistill–Audit–Repair学習で抑える

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性チューニングされたLLMが「同一性に盲目(identity-blind)」になりやすく、その結果として、集団差が事実として正しい/状況的に妥当であっても誤答や不必要な拒否、単なる「平等な取り扱い」へのデフォルトが生じる問題を扱います。
  • 集団が関与する質問に対して、直接回答するのではなく「正解には集団差の認識が必要か(yes)」または「集団は同一に扱うべきか(no)」を分類する差分認識分類の枠組みを提案します。
  • 重要な点として、精度向上のための微調整が「危害ドリフト(harm drift)」を引き起こし、意思決定の正確さが上がるほど、危険な内容の展開、新たな問題的仮定、あるいはベースラインで特定された害を見落とすなどの形で説明がより有害になっていくことを示します。
  • これを抑えるためにDART(Distill–Audit–Repair Training)を提案し、教師からラベル条件付き推論を蒸留したうえで、出力をベースライン相対で危害ドリフト事例として監査し、重み付けされた重症度(severity)に基づく微調整で問題を修復します。
  • 8つのベンチマークと280件の実世界クエリで、DARTは精度や差分に適した応答を大幅に向上させつつ、危害ドリフト事例を減らし、拒否も大きく低減することを報告しており、検出と修復の仕組みを明示すれば精度と安全性は両立し得ることを示唆します。