WARP:NLP Transformerの内層における保証付きリペア
arXiv cs.LG / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、最終層を超えてNLP Transformerモデルの敵対的脆弱性を修復するための、制約ベースの枠組みWARP(Weight-Adjusted Repair with Provability)を提案する。
- WARPは、logit gapの一階線形化を用いて修復を凸二次計画法として定式化し、高次元のパラメータ空間に対する扱いやすい最適化を可能にする。
- 各入力に対して、WARPは3種類の保証を提供する:正しい分類に対する正のマージン、選択したremain set上での保存制約、そしてリプシッツ連続性による認証されたロバスト性半径。
- 異なるTransformerアーキテクチャにわたって実現可能性を維持するために、この手法は感度に基づく前処理ステップを追加し、最適化の地形を条件付けする。
- 異なる層アーキテクチャを持つエンコーダのみのTransformerに対する実験では、理論的保証が実際にも成り立ち、敵対的摂動へのロバスト性が向上することが報告されている。




