トークンとは何か
LLM はテキストを「単語」ではなく「トークン」という単位で処理します。トークンは単語より細かい場合が多く、頻出語は 1 トークン、稀少語や記号は複数トークンに分割されます。
例(GPT-4 系トークナイザ)
- "hello" → 1 トークン
- "electricity" → 1 トークン
- "prestidigitation" → 4 トークン("pre", "stid", "ig", "itation")
- "こんにちは" → 3〜4 トークン(日本語は文字単位に近い)
- "AI" → 1 トークン
トークン数の目安
| 言語 | 1 トークンあたり |
|---|---|
| 英語 | 約 0.75 単語、4 文字 |
| 日本語 | 約 0.5〜1 文字 |
| 中国語 | 約 0.5〜1 文字 |
| コード | 約 3〜5 文字 |
同じ意味の文章なら、日本語は英語の 1.5〜2 倍のトークンを消費します。コスト試算では要注意。


