トークンとコンテキスト窓：課金・制限の根本概念

AI Navigate Original / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

トークンは LLM の計算・課金単位で単語より細かい
日本語は英語の 1.5-2 倍、コスト試算で注意
文脈窓は中央が忘れられ、重要情報は先頭末尾か RAG
短プロンプト・キャッシュ・RAG でコスト制御、累積は巨大化

AI を使うとき、必ず裏で数えられている単位があります。それがトークンです。文章は「単語」ではなく、もっと細かいトークンへ分解されてからモデルに渡されます。このトークンこそが、料金の単位であり、一度に扱える量の上限（コンテキスト窓）でもあります。ここを押さえると、「なぜ長文を貼ると高くつくのか」「なぜ途中から会話を忘れるのか」が一本の理屈でつながります。

FIG.1　文章はトークンに割られ、その個数で課金と容量が決まる

01トークンとは何か

トークンは、モデルがテキストを処理するときの最小単位です。単語そのものではなく、もっと細かい「文字のかたまり」だと考えるとつかみやすいです。よく出てくる語は 1 個のトークンにまとまり、珍しい語や記号は複数に割れます。

英語の例で見ると分かりやすいです。

hello → 1 トークン（頻出語はまるごと 1 個）
electricity → 1 トークン
prestidigitation（珍しい語）→ 4 トークン程度（pre / stid / ig / itation のように分割）
AI → 1 トークン

日本語は事情が違います。英語ほど「単語まるごと 1 トークン」になりにくく、おおむね 1 文字あたり 1 トークン前後に割れます。つまり同じ意味でも、日本語は英語より多くのトークンを消費します。実測の研究では平均しておよそ 2 倍（文によっては数倍）に達するとされます。料金やコンテキスト容量を見積もるとき、ここを軽く見ると後で数字がずれます。

テキストの種類	1 トークンあたりの目安
英語	約 4 文字（≒ 0.75 単語）
日本語	約 1 文字前後（英語の約 2 倍のトークン数）
中国語・韓国語	約 1 文字前後（日本語と同様に重い）
プログラムコード	記号や改行も数えるため文字数の割に多め

目安はトークナイザ（モデルごとの分割方式）によって変わります。正確に知りたいときは、各社が公開するトークナイザやトークン数カウンタで実際に数えるのが確実です。

トークンは、AI にとっての「文字数の代わりのものさし」。料金も上限も、すべてこの個数で測られる。

02コンテキスト窓：一度に見渡せる量

コンテキスト窓（context window）とは、1 回のやり取りでモデルが同時に見渡せるトークンの最大数です。会話履歴・指示文・貼り付けた資料・モデルが書く返答――これら全部を合わせた合計が、この窓に収まっていなければなりません。窓を超えた分は、古いものから押し出されて「見えなくなる」と考えてください。長い会話の途中で前半の話を忘れたように見えるのは、これが原因です。