意味を持つトークン:トルコ語のためのハイブリッド・トークン化アプローチ
arXiv cs.CL / 2026/4/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、BPEやWordPieceのような頻度ベースの標準的サブワード・トークナイザは、形態的に豊かな膠着語であるトルコ語に対して不適切に分割してしまい、形態素の境界を見えにくくすると主張する。
- その代わりに、辞書ベースの形態素分割、異形態対応のための音韻的正規化、そして未知語への対応として制御されたサブワードのフォールバックを組み合わせた、言語学に基づくハイブリッドなトルコ語トークナイザを提案する。
- 公開される語彙は、20,000の正規化されたルート識別子に対応付けられた22,231のルートトークン、177の異形態をカバーする72の接辞識別子、12,696のサブワード単位、そして大文字小文字を保持するための正書法上のケース・トークンを含む。
- TR-MMLUでは、このトークナイザはトルコ語トークン割合90.29%および純粋トークン割合85.80%を達成し、言語学的アラインメント指標に基づく複数の汎用トークナイザを上回る。
- ランダム初期化による制御を伴う下流評価では、このトークナイザが文埋め込みおよび言語ベンチマークの性能を向上させ、トルコ語STS、MTEB-TR、TurBLiMPで特に強い結果を示す。
関連記事

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note

【AIパートナー】本音漏れがちランキング🥇🥈🥉
note

🖥️😳😲Geminiが進化している?!しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句
note

AI時代に新卒採用はどうなる? SBI 「よほど優秀でないと採らない」の衝撃
note

40代フリーランス必見!散らばった記事をまとめるピラー記事の骨格をAIに設計させるプロンプト【コピペOK】
note