WARP：NLP Transformerの内層における保証付きリペア

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、最終層を超えてNLP Transformerモデルの敵対的脆弱性を修復するための、制約ベースの枠組みWARP（Weight-Adjusted Repair with Provability）を提案する。
WARPは、logit gapの一階線形化を用いて修復を凸二次計画法として定式化し、高次元のパラメータ空間に対する扱いやすい最適化を可能にする。
各入力に対して、WARPは3種類の保証を提供する：正しい分類に対する正のマージン、選択したremain set上での保存制約、そしてリプシッツ連続性による認証されたロバスト性半径。
異なるTransformerアーキテクチャにわたって実現可能性を維持するために、この手法は感度に基づく前処理ステップを追加し、最適化の地形を条件付けする。
異なる層アーキテクチャを持つエンコーダのみのTransformerに対する実験では、理論的保証が実際にも成り立ち、敵対的摂動へのロバスト性が向上することが報告されている。