LLM 開発の基礎:トークン・コンテキスト・料金

AI Navigate Original / 2026/5/16

共有:

要点

  • LLM開発前にトークン・コンテキスト・料金を押さえる。日本語は英語の1.5〜2倍トークン
  • コンテキストは入出力合計、2026は~100万級だが変動大で公式確認。長文は中盤が抜けるのでRAG/分割
  • 料金は変動が激しいので金額表は載せない。傾向のみ:出力が高い/軽量は桁違いに安い/キャッシュ・Batchで割引
  • 本番はRate Limit・Latency・Streaming・Tool Use/構造化出力も押さえる

LLM 開発の前に押さえる 3 概念

LLM API を使う前に、トークン・コンテキスト・料金の 3 概念を理解しておくと、コードもコスト試算もスムーズです。

トークン

LLM が処理する最小単位。「単語」ではなく、単語の断片や記号も含みます。料金はトークン数で課金されます。

  • 英語:1 単語 ≈ 1.3 トークン(≈ 4 文字)
  • 日本語:1 文字 ≈ 1〜2 トークン(カナ・漢字で変動)。同じ意味なら英語の 1.5〜2 倍消費
  • コード:記号・空白も全部トークン
  • 画像・音声・動画も別枠でトークン換算される(API により異なる)

確認方法

  • OpenAI:tiktoken ライブラリ、Web の Tokenizer ツール
  • Anthropic:count_tokens API(概算は英語と同様)

感覚値

テキスト概算トークン
「こんにちは」3〜5
1 段落(500 字)500〜800
記事 1 本(3000 字)3,000〜5,000
本 1 冊80,000〜150,000

コンテキストウィンドウ

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。