物語生成における分布外デバイアス低減のための前処条件付けテスト時適応

arXiv cs.CL / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本研究では、高偏りのプロンプトが分布シフト（OOD）を構成すること、そしてこのシフトの下で静的なデバイアス低減モデルが劣化することを検証している。
CAP-TTAを導入する。CAP-TTAは文脈を考慮したLoRA更新を、バイアスリスクのトリガーが閾値を超えた場合にのみ実行するテスト時適応フレームワークであり、更新を高速で安定させるために事前計算済みの対角前条件子を使用する。
有害プロンプトのベンチマークを横断して、CAP-TTAは人間評価によるバイアス低減を実現しつつ、AdamW/SGDよりもはるかに低い更新レイテンシを達成し、崩壊的忘却を緩和し、最先端のデバイアス除去ベースラインと比較して物語の流暢さを改善する。
このアプローチは、分布シフト下でのデバイアスの有効性、流暢さ、効率のバランスを取りつつ、物語生成への実運用展望を重視している。

Abstract

バイアス抑制済みLLMsは、既知のバイアスパターンには良く機能しますが、未知のバイアスプロンプトには一般化できず、有害な出力を生み出すことがあります。まず、このような高バイアスのプロンプトが \emph{分布シフト} をOOD検出を介して構成することを検証し、このシフトの下で静的モデルが劣化することを示します。即時適応のために、\textbf{CAP-TTA}、文脈認識型LoRA更新を、バイアスリスク \emph{trigger} が閾値を超えた場合にのみ実行するテスト時適応フレームワークを提案します。高速で安定した更新のために、事前計算された対角 \emph{プリコンディショナー} を使用します。毒性プロンプト設定およびベンチマーク全体において、CAP-TTA はバイアスを低減（人間評価で確認）しつつ、AdamW/SGD よりもはるかに低い更新遅延を達成します；また、SOTA のデバイアス除去ベースラインより大幅に語りの流暢さを改善しつつ、破壊的忘却を緩和し、同等のデバイアス除去効果を維持します。

Translator

Azure OpenAI Service ドキュメント

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

Reddit r/artificial

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

Dev.to

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

物語生成における分布外デバイアス低減のための前処条件付けテスト時適応

要点

Abstract

関連記事

Translator

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer