「ChatGPTの料金ページを見ると『トークン』という単位が出てくるけど、文字数と何が違うの?」 「AIに長い文章を送ったら途中で内容を忘れてしまったけど、なぜ?」
生成AIサービスを利用する上で、「トークン」という概念は避けて通れない基本知識です。 トークンはAIの料金計算の基準であると同時に、AIが一度に処理できる情報量(性能)にも直結する重要な単位です。
この記事では、トークンとは何か、料金はどう計算されるのか、そしてAIの「記憶力」を決める「コンテキストウィンドウ」の概念まで、わかりやすく解説します。
トークンとは?
トークンとは、AIがテキストを処理する際に使う最小単位のことです。
人間は文章を「文字」や「単語」の単位で読み書きしますが、LLM(大規模言語モデル)は文章をそのまま理解するのではなく、まずテキストを「トークン」という単位に分割(トークナイズ)してから処理を行います。
ここで重要なのは、1トークン = 1文字ではないという点です。
トークンの分割ルール:英語と日本語の違い
トークンへの分割方法は言語によって大きく異なります。 これを理解しておくことは、料金やモデルの利用効率を考える上で非常に重要です。
英語の場合
英語では、おおよそ1単語 ≒ 1〜2トークンが目安です。 短い一般的な単語は1トークンに、長い単語や専門用語は複数のトークンに分割されます。
例:
"ChatGPT is amazing"→["Chat", "GPT", " is", " amazing"]
→ 4トークン
日本語の場合
日本語はトークン効率が英語に比べて低く、1文字が1〜3トークンに分割されることがあります。 これは、LLMのトークナイザー(分割器)が主に英語ベースのデータで学習されている場合が多いためです。
例:
"生成AIは便利です"→["生成", "AI", "は", "便利", "です"]
→ 5トークン(※モデルにより異なる)
つまり、同じ意味の内容でも日本語は英語の約1.5〜2倍のトークン数を消費する傾向があります。 日本語でAPIを利用する場合、英語よりもコストが高くなりやすいことを覚えておきましょう。
トークンと料金の関係
ChatGPT APIやGemini APIなど、多くの生成AIサービスではトークン単位で料金が計算されます。
API料金の基本構造
API料金は通常、以下の2つに分かれています。
| 項目 | 説明 |
|---|---|
| 入力トークン(Input) | ユーザーが送った質問やシステムプロンプトのトークン数 |
| 出力トークン(Output) | AIが生成した回答のトークン数 |
一般的に出力トークンの方が入力トークンよりも単価が高く設定されています。 これは、AIが回答を「生成」する処理のほうが計算コストが大きいためです。
実際の料金例(2026年3月時点)
以下に主要モデルの料金目安を示します(1Mトークン=100万トークンあたり)。
| モデル | 入力(/1Mトークン) | 出力(/1Mトークン) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| GPT-4o mini | $0.15 | $0.60 |
| Gemini 2.0 Flash | $0.10 | $0.40 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
※ 料金は変更される可能性があります。最新の情報は各サービスの公式サイトをご確認ください。
料金の計算例
例えば、GPT-4oを使って「500トークンの質問を送り、1,000トークンの回答を得た」場合:
入力: 500 ÷ 1,000,000 × $2.50 = $0.00125 出力: 1,000 ÷ 1,000,000 × $10.00 = $0.01 合計: 約 $0.01125(約1.7円 ※1ドル=150円換算)
1回あたりは非常に安価ですが、大量のリクエストを処理するアプリケーションでは、トークン数の管理がコスト最適化の鍵になります。
コンテキストウィンドウとは?
AIの料金に加えて、もうひとつ理解しておくべき重要な概念が「コンテキストウィンドウ(Context Window)」です。
コンテキストウィンドウの定義
コンテキストウィンドウとは、AIが一度の会話で処理できるトークンの最大量のことです。 この中に、入力(質問・過去の会話履歴・システムプロンプト)と出力(AIの回答)の両方が含まれます。
本に例えるなら、コンテキストウィンドウはAIの「机の広さ」です。机が広ければ多くの資料(文章)を広げて参照しながら回答できますが、机からはみ出した資料は見えなくなります。
主要モデルのコンテキストウィンドウ
| モデル | コンテキストウィンドウ | 日本語の目安 |
|---|---|---|
| GPT-4o | 128Kトークン | 約6〜9万文字 |
| Gemini 2.0 Flash | 1Mトークン | 約50〜70万文字 |
| Claude 3.5 Sonnet | 200Kトークン | 約10〜14万文字 |
※ 日本語は1文字あたり約1.5〜2トークンを消費するため、英語よりも実質的に扱える文字数は少なくなります。
コンテキストウィンドウを超えるとどうなる?
会話が長くなりコンテキストウィンドウの上限を超えると、AIは古い会話内容を「忘れる」ことになります。
例えば、長い会話の中で最初に伝えた前提条件をAIが突然無視し始めた場合、それはコンテキストウィンドウの制限に達している可能性があります。
対策としては以下の方法があります。
- 会話を適度にリセットする(新しいチャットを始める)
- 重要な指示はシステムプロンプトにまとめる(毎回送信される領域に配置する)
- コンテキストウィンドウが大きいモデルを選ぶ(Geminiなど)
トークン数を確認する方法
実際にどれくらいのトークン数になるか確認したい場合、以下のツールが便利です。
- OpenAI Tokenizer: OpenAIの公式ツール。テキストを入力するとトークン分割結果とトークン数が確認できる
- tiktokenライブラリ(Python): OpenAIが提供するPythonライブラリで、プログラムからトークン数をカウントできる
APIを利用したアプリケーション開発をする場合、事前にトークン数を把握することでコスト管理や、コンテキストウィンドウの超過防止に役立ちます。
まとめ
今回は、生成AIの基本概念である「トークン」について解説しました。
- トークンとは: AIがテキストを処理する最小単位。1トークン ≠ 1文字
- 日本語の注意点: 英語に比べてトークン消費が多く、コストが上がりやすい
- 料金計算: 入力と出力のトークン数に基づいて課金される。出力の方が単価が高い
- コンテキストウィンドウ: AIが一度に扱えるトークンの上限。超えると古い情報が失われる
トークンの概念を理解しておくことで、AIサービスの料金プランの比較や、APIを使ったアプリケーション開発でのコスト最適化ができるようになります。「なぜAIが途中で話を忘れるのか」「なぜ日本語の方が料金が高くなるのか」といった疑問も、トークンの仕組みを知っていれば納得できるはずです。