言葉がどこから来るのか:ソースの帰属によるコードトークナイザの効率的な正則化
arXiv cs.CL / 2026/4/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、コード・トークナイザの品質がLLMの効率と安全性に強く影響し、脱獄(jailbreak)への防御や、幻覚(ハルシネーション)リスクの低減を含むと主張する。
- トークナイザ学習における重要な問題として、リポジトリ/言語の多様性が偏っていると、多くの未使用または十分に学習されないトークンが生じる一方で、特定のソースに特化した反復的なトークンは将来の推論時に利用できない可能性があることを指摘する。
- 提案手法であるSource-Attributed BPE(SA-BPE)は、BPEの学習目的を変更し、マージのスキップを導入することで、学習を正則化し、特定のソースへの過剰適合を抑える。
- 著者らは、SA-BPEが標準のBPEと同じ推論手順を維持しつつ、十分に学習されないトークンの数を大幅に減らすと主張しており、プロダクションへの導入に適しているとしている。




