言葉がどこから来るのか：ソースの帰属によるコードトークナイザの効率的な正則化

arXiv cs.CL / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、コード・トークナイザの品質がLLMの効率と安全性に強く影響し、脱獄（jailbreak）への防御や、幻覚（ハルシネーション）リスクの低減を含むと主張する。
トークナイザ学習における重要な問題として、リポジトリ／言語の多様性が偏っていると、多くの未使用または十分に学習されないトークンが生じる一方で、特定のソースに特化した反復的なトークンは将来の推論時に利用できない可能性があることを指摘する。
提案手法であるSource-Attributed BPE（SA-BPE）は、BPEの学習目的を変更し、マージのスキップを導入することで、学習を正則化し、特定のソースへの過剰適合を抑える。
著者らは、SA-BPEが標準のBPEと同じ推論手順を維持しつつ、十分に学習されないトークンの数を大幅に減らすと主張しており、プロダクションへの導入に適しているとしている。

日経XTECH

Dev.to

Dev.to

Dev.to

Dev.to