AI Navigate

物語生成における分布外デバイアス低減のための前処条件付けテスト時適応

arXiv cs.CL / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本研究では、高偏りのプロンプトが分布シフト(OOD)を構成すること、そしてこのシフトの下で静的なデバイアス低減モデルが劣化することを検証している。
  • CAP-TTAを導入する。CAP-TTAは文脈を考慮したLoRA更新を、バイアスリスクのトリガーが閾値を超えた場合にのみ実行するテスト時適応フレームワークであり、更新を高速で安定させるために事前計算済みの対角前条件子を使用する。
  • 有害プロンプトのベンチマークを横断して、CAP-TTAは人間評価によるバイアス低減を実現しつつ、AdamW/SGDよりもはるかに低い更新レイテンシを達成し、崩壊的忘却を緩和し、最先端のデバイアス除去ベースラインと比較して物語の流暢さを改善する。
  • このアプローチは、分布シフト下でのデバイアスの有効性、流暢さ、効率のバランスを取りつつ、物語生成への実運用展望を重視している。

Abstract

バイアス抑制済みLLMsは、既知のバイアスパターンには良く機能しますが、未知のバイアスプロンプトには一般化できず、有害な出力を生み出すことがあります。まず、このような高バイアスのプロンプトが \emph{分布シフト} をOOD検出を介して構成することを検証し、このシフトの下で静的モデルが劣化することを示します。即時適応のために、\textbf{CAP-TTA}、文脈認識型LoRA更新を、バイアスリスク \emph{trigger} が閾値を超えた場合にのみ実行するテスト時適応フレームワークを提案します。高速で安定した更新のために、事前計算された対角 \emph{プリコンディショナー} を使用します。毒性プロンプト設定およびベンチマーク全体において、CAP-TTA はバイアスを低減(人間評価で確認)しつつ、AdamW/SGD よりもはるかに低い更新遅延を達成します;また、SOTA のデバイアス除去ベースラインより大幅に語りの流暢さを改善しつつ、破壊的忘却を緩和し、同等のデバイアス除去効果を維持します。