AIの本と用語検索

トークン

トークンは、自然言語処理(NLP)においてテキストデータをAIが理解可能な最小単位に分割したものです。これは単語や文字、あるいはそれらの一部から構成され、AIモデルが言語を処理する際の基本的な「構成要素」として機能します。

例えば、「いま、何時ですか」という日本語の文は、「いま」「、」「何時ですか」といった複数のトークンに分解されることがあります。また、英語では"unbelievable"(信じられない)という単語が、"un"、"believe"、"able"といったより小さなサブワードトークンに分割されることもあります。

このプロセスは「トークン化(Tokenization)」と呼ばれ、AIモデルが未知の単語(OOV: Out-of-Vocabulary)に遭遇した際にも、既知のサブワードの組み合わせとして処理できるため、モデルの汎化能力を高める上で非常に重要です。

各トークンは、AIの内部で数値的なベクトル(トークン埋め込みまたはトークンエンベディング)に変換されます。

このベクトルは、そのトークンが持つ意味や文脈的な情報を多次元空間上に表現したものであり、AIはこれらの数値データを基に複雑な言語処理タスクを実行します。

つまり、トークンは人間が使う自然言語と、AIが処理する数値データとの橋渡し役であり、AIモデルが効率的かつ正確にテキストを理解・生成するための基盤を形成しています。