LLM 開発の前に押さえる 3 概念
LLM API を使う前に、トークン・コンテキスト・料金の 3 概念を理解しておくと、コードもコスト試算もスムーズです。
トークン
LLM が処理する最小単位。「単語」ではなく、単語の断片や記号も含みます。料金はトークン数で課金されます。
- 英語:1 単語 ≈ 1.3 トークン(≈ 4 文字)
- 日本語:1 文字 ≈ 1〜2 トークン(カナ・漢字で変動)。同じ意味なら英語の 1.5〜2 倍消費
- コード:記号・空白も全部トークン
- 画像・音声・動画も別枠でトークン換算される(API により異なる)
確認方法
- OpenAI:tiktoken ライブラリ、Web の Tokenizer ツール
- Anthropic:count_tokens API(概算は英語と同様)
感覚値
| テキスト | 概算トークン |
|---|---|
| 「こんにちは」 | 3〜5 |
| 1 段落(500 字) | 500〜800 |
| 記事 1 本(3000 字) | 3,000〜5,000 |
| 本 1 冊 | 80,000〜150,000 |