AI を使うとき、必ず裏で数えられている単位があります。それがトークンです。文章は「単語」ではなく、もっと細かいトークンへ分解されてからモデルに渡されます。このトークンこそが、料金の単位であり、一度に扱える量の上限(コンテキスト窓)でもあります。ここを押さえると、「なぜ長文を貼ると高くつくのか」「なぜ途中から会話を忘れるのか」が一本の理屈でつながります。
FIG.1 文章はトークンに割られ、その個数で課金と容量が決まる
01トークンとは何か
トークンは、モデルがテキストを処理するときの最小単位です。単語そのものではなく、もっと細かい「文字のかたまり」だと考えるとつかみやすいです。よく出てくる語は 1 個のトークンにまとまり、珍しい語や記号は複数に割れます。
英語の例で見ると分かりやすいです。
hello→ 1 トークン(頻出語はまるごと 1 個)electricity→ 1 トークンprestidigitation(珍しい語)→ 4 トークン程度(pre/stid/ig/itationのように分割)AI→ 1 トークン
日本語は事情が違います。英語ほど「単語まるごと 1 トークン」になりにくく、おおむね 1 文字あたり 1 トークン前後に割れます。つまり同じ意味でも、日本語は英語より多くのトークンを消費します。実測の研究では平均しておよそ 2 倍(文によっては数倍)に達するとされます。料金やコンテキスト容量を見積もるとき、ここを軽く見ると後で数字がずれます。
| テキストの種類 | 1 トークンあたりの目安 |
|---|---|
| 英語 | 約 4 文字(≒ 0.75 単語) |
| 日本語 | 約 1 文字前後(英語の約 2 倍のトークン数) |
| 中国語・韓国語 | 約 1 文字前後(日本語と同様に重い) |
| プログラムコード | 記号や改行も数えるため文字数の割に多め |
目安はトークナイザ(モデルごとの分割方式)によって変わります。正確に知りたいときは、各社が公開するトークナイザやトークン数カウンタで実際に数えるのが確実です。
トークンは、AI にとっての「文字数の代わりのものさし」。料金も上限も、すべてこの個数で測られる。
02コンテキスト窓:一度に見渡せる量
コンテキスト窓(context window)とは、1 回のやり取りでモデルが同時に見渡せるトークンの最大数です。会話履歴・指示文・貼り付けた資料・モデルが書く返答――これら全部を合わせた合計が、この窓に収まっていなければなりません。窓を超えた分は、古いものから押し出されて「見えなくなる」と考えてください。長い会話の途中で前半の話を忘れたように見えるのは、これが原因です。



