トークン化における確率性が頑健性を向上させる

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、決定論的な標準（canonical）トークン化が、入力の擾乱やトークン化に対する敵対的攻撃に対してLLMを脆くする一方で、確率的トークン化は内部表現の安定性を高め得ると主張している。
著者らは、確率的トークン化が敵対的攻撃とランダム擾乱への頑健性に与える影響を、事前学習・教師あり微調整・インコンテキスト学習といった複数の学習段階、データセット、モデル構成にわたって体系的に評価する。
事前学習と微調整において一様にサンプリングされた確率的トークン化で学習すると、ランダム擾乱および敵対的擾乱の両方に対する頑健性が向上する。
標準トークン化で学習したLlama-1bを、一様にサンプリングされた非標準（non-canonical）トークン化で評価すると精度が29.8%低下し、トークン化選択への感度の高さが示される。
確率的トークン化で学習しても推論コストは増えず、精度を維持できると報告されており、実用的な頑健性向上につながる可能性がある。

要旨: 大規模言語モデル（LLM）の広範な採用は、その頑健性に対する懸念を高めている。入力のトークン化に対する摂動における脆弱性は、決定論的な標準（カノニカル）トークン化で訓練されたモデルが、敵対的攻撃に対して脆い可能性を示している。近年の研究では、確率的トークン化は摂動への感度が低い内部表現をもたらしうることが示唆されている。本論文では、確率的トークン化が敵対的攻撃およびランダムな摂動に対する頑健性にどのように影響するかを分析する。学習状況の幅（事前学習、教師あり微調整、インコンテキスト学習）、データセット、モデルアーキテクチャにわたって体系的に検討する。一様にサンプリングされた確率的トークン化での事前学習と微調整は、ランダムおよび敵対的摂動への頑健性を改善することを示す。一様にサンプリングされた非標準（ノンカノニカル）トークン化で評価すると、標準的に訓練したLlama-1bモデルの精度が29.8%低下することを見いだした。確率的トークン化で訓練すると、推論コストを増やすことなく精度が維持される。