プロンプト摂動はどこで生成を壊すのか?LoRAチューニング言語モデルの頑健性をセグメント単位で見る
arXiv cs.CL / 2026/5/5
📰 ニュースModels & Research
要点
- 本論文は、既存の頑健性手法(全シーケンスの一貫性)が、出力全体は似ていても重要な実体・関係・結論の部分で意味がずれるという失敗モードを見落とし得ると指摘しています。
- そこで提案するS$2$R$2$は、LoRAの微調整に向けたセグメント単位の頑健性フレームワークで、クリーン生成と摂動付き生成を意味セグメントに分解し、最適輸送に基づくアラインメント目的を用います。
- S$2$R$2$は意味のずれが最大のセグメントに対してのみペナルティを課し、LoRAノルム制御を代理として、出力側の目的とモデル適応をつなぐアダプタ安定化正則化も導入します。
- 著者らはPAC-Bayesianの観点から、アダプタの成長を抑えることが、学習時に見た摂動以外への転移を高める可能性を説明しています。
- 要約ベンチマークでの実験では、S$2$R$2$がタイポノイズ、削除、類義語置換、言い換えに対する頑健性を向上させつつ、クリーン性能を競争力のある水準で維持し、さらに一貫性ベースの手法よりもクロスデータセット転移が強いことを示しました。


