カジュアルな文がNLIを崩す：トークナイズ失敗、分布シフト、標的型の対策

arXiv cs.CL / 2026/4/21

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、ELECTRA-smallとRoBERTa-largeを用い、SNLIおよびMultiNLIで、カジュアルな表層表現がNLI精度をどのように（そしてどの要因で）低下させるかを調べています。
スラング置換は最大1.1pp程度の軽微な悪化にとどまります。これはスラング語彙の多くがWordPieceのカバー範囲内にあり、信号の大きな損失が起きにくいためです。
絵文字置換は重大な失敗モードで、内容語がWordPieceトークナイザによって[UNK]に変換されてしまい、学習されたパラメータに入力される時点で情報が破壊されます。
Gen-Zのフィラートークンのようなノイズ語は語彙的にはin-vocabularyですが、NLI訓練データに存在しないため学習上の整合性が崩れ、分布シフトとして機能します。
対策は失敗モードごとに異なり、絵文字にはトークン化前の前処理（正規化）、ノイズには学習時のデータ拡張が有効で、両者を併用すると混合変換で大きく改善しつつクリーン文での低下は統計的に有意でありません。

日経XTECH

Dev.to

Dev.to

Dev.to

Dev.to