トークン | UX TIMES

大規模言語モデル（LLM）が文章を処理する仕組みは、「言葉を最小単位に分ける」作業からスタートする。まず、入力されたテキストは、モデルが認識できる意味の最小単位（トークン）に分割される。多くのLLMが採用している「サブワード・トークン化」という分解方法のおかげで、モデルはまだ見たことのない新しい単語や、入力ミスのあるスペルにも柔軟に対応できるようになっている。

この分解が終わると、LLMはそれぞれの言葉の断片を、文脈や文法を分析するための固有の数値データとして取り扱う。この数値データを用いて言葉同士の関連性を深く分析することで、文章全体の内容を正確に把握する。そして、新しいテキストを生成する段階では、モデルがこれまで分析してきた言葉の流れに基づき、次に続く可能性が最も高い言葉を予測し、それを一つずつ繋いで文章を完成させる。

この「言葉の分解方法」や「分解の細かさ」の基準が、顧客への応答の速さ、生成される文章の正確性、そしてシステムにかかるコストの3つすべてに影響を与える。

トークン数でAIサービスの使用料が決まる

AIサービスを支えるLLM（大規模言語モデル）の世界では、「トークン」が非常に重要な役割を担っている。その理由は、AIサービスの利用料が、文字数ではなく、このトークンを基準に決まる料金体系へと移行したからだ。トークンとは、AIが言葉を処理するために必要な作業量を測る「お金」のような単位だと考えると分かりやすい。これは、我々が入力するテキストと、AIが生成する回答、その両方で料金を決める基準となる。

途切れない会話を生むAI記憶の秘訣

トークンを効率的にAIに読み込ませるはAI開発において非常に重要である。なぜならトークン数が多すぎると、入力したテキスト全てを処理しきれずに忘却してしまったり、出力テキストが途切れてしまうことがあるからだ。

その具体的な効率化の方法として、チャットボットのような対話サービスでは「チャンキング」という情報の分割戦略を設計する。これは、ユーザーとの会話をAIが処理しやすいよう、情報を適切なサイズに区切る工夫だ。この分割により、AIはいつも記憶の範囲内で最も関連性の高い過去の情報だけを確実に参照できる。結果として、会話の繋がりがスムーズに維持され、ユーザーは途切れることのない安定した快適な体験を得られる。

多言語対応AIの性能を維持する設計

AIは、言葉を処理する単位であるトークンの数が、言語によって大きく変動する特性を持つ。特に日本語や特定のプログラムコードのように、言語構造が特殊なテキストでは、伝えている内容が同じでも、英語などと比べてトークン数が大幅に変わってしまうのだ。

この特性を踏まえ、プロダクトの多言語対応の初期段階で、ターゲットとする各言語のトークン化の傾向を事前に分析すべきである。そうすることで、各言語の特性に合わせて、ユーザーが使う画面上の入力文字数の制限を調整したり、裏側でAIが会話の流れ（コンテキスト）を維持するための仕組みを、より頻繁に、積極的に作動させる設計をあらかじめ組み込むことができる。

トークン token

トークン数でAIサービスの使用料が決まる

途切れない会話を生むAI記憶の秘訣

多言語対応AIの性能を維持する設計

関連用語

高橋祐哉

「UX用語」のカテゴリー

ツール・フレームワーク・方法論・分類

テクノロジー・技術

デザイン・情報設計

マーケティング・ビジネス

リサーチ・分析・テスト

心理学・行動経済学・脳科学

思考・マインド・バイアス

組織・ファシリテーション

トークン数でAIサービスの使用料が決まる ​

途切れない会話を生むAI記憶の秘訣

多言語対応AIの性能を維持する設計

関連用語

高橋 祐哉

ツール・フレームワーク・方法論・分類

テクノロジー・技術

デザイン・情報設計

マーケティング・ビジネス

リサーチ・分析・テスト

心理学・行動経済学・脳科学

思考・マインド・バイアス

組織・ファシリテーション

トークン数でAIサービスの使用料が決まる

高橋祐哉