DéclicIA - Tokenisation

La tokenisation est la toute première étape (et l'une des plus cruciales) lorsqu'une IA traite du texte. Comme les modèles d'IA ne comprennent pas les lettres ou les mots comme nous, ils ont besoin de transformer le langage humain en unités mathématiques. Voici comment cela fonctionne, de manière simple (plus de détail dans l'onglet Théorie) :

Le token
Un token n'est pas forcément un mot entier. Selon la méthode utilisée, un token peut être :
- Un mot complet ("chat")
- Une partie de mot ("ir-", "-ré-", "-el")
- Un signe de ponctuation ou un espace.
En moyenne, pour l'anglais et le français, on considère que 1 000 tokens correspondent à environ 750 mots.
Le processus de transformation
Le passage du texte vers l'IA suit trois grandes étapes clés :
1. Découpage (Splitting) : La phrase "Les élèves adorent l'intelligence artificielle !" est découpée en morceaux.
2. Indexation : Chaque morceau unique est associé à un numéro dans un immense dictionnaire (le vocabulaire du modèle). Exemple : "chat" = 432, "mange" = 1056.
3. Conversion en Vecteurs : Ces numéros sont ensuite transformés en listes de nombres complexes (les embeddings) que l'IA peut manipuler pour comprendre le sens.
Pourquoi ne pas utiliser simplement des mots ?
Les chercheurs ont réalisé que découper par "sous-mots" (méthode BPE ou Byte Pair Encoding) est bien plus efficace :
- Gestion de l'inconnu : Si l'IA rencontre un mot nouveau (ex: "Dé-confinement" en 2020), elle peut le comprendre en combinant les tokens "Dé", "confine" et "ment".
- Efficacité mémoire : Cela évite d'avoir un dictionnaire de 10 millions de mots différents ; avec 50 000 tokens de base, on peut reconstruire presque tous les mots du monde.
- Racines communes : "Danser", "Danseur" et "Dansons" partageront le même token racine ("Dans"), ce qui aide l'IA à comprendre qu'ils parlent de la même idée.

⚠️ L'impact sur le coût et la performance
C'est ici que ça devient concret pour l'utilisateur :

La facturation : Les services comme OpenAI ou Anthropic facturent au nombre de tokens (entrée + sortie), pas au nombre de caractères.
La "fenêtre de contexte" : Chaque modèle a une limite de mémoire (ex: 128k tokens). Une fois cette limite atteinte, l'IA "oublie" le début de la conversation.

01 — Démo live

Tokenise ton texte

Tape n'importe quel texte et observe comment il est découpé en tokens en temps réel.

0caractères

0tokens

0chars/token

0mots

Les tokens apparaîtront ici…

💡 Le saviez-vous ? En moyenne, 1 token ≈ 4 caractères en anglais, mais davantage en français — ce qui rend les prompts français légèrement plus coûteux. Les emojis, formules mathématiques ou mots rares utilisent souvent plusieurs tokens.

02 — Comparaison

Même texte, encodages différents

Selon la stratégie choisie, le même texte produit un nombre de tokens très différent.

🎯 Byte-Pair Encoding (BPE) — utilisé par GPT — fusionne les paires de caractères les plus fréquentes de façon itérative, créant un vocabulaire de sous-mots optimisé sur un corpus massif. C'est l'équilibre idéal entre vocabulaire exhaustif (trop de mots) et caractère par caractère (trop de tokens).

03 — Vocabulaire

Distribution des tokens dans ton texte

Colle un texte plus long pour voir quels tokens sont les plus fréquents.

04 — Coût & Fenêtre de contexte

Simulateur de coût API

Estimez le coût d'utilisation d'un LLM pour votre projet pédagogique.

Tokens en entrée (prompt) Tokens en sortie (réponse) Nombre d'appels / jour

Modèle

* Tarifs indicatifs en $/M tokens (mai 2025) — vérifier sur les sites officiels

Fenêtre de contexte

Visualisez l'occupation de la fenêtre de contexte du modèle sélectionné.

0 tokens utilisés 128k contexte

05 — Théorie

Comment ça marche ?

Les grandes étapes de la tokenisation dans un LLM moderne.

🔤

1. Texte brut

Le modèle reçoit une chaîne de caractères. Avant tout traitement, le texte est normalisé (minuscules, unicode, espaces).

✂️

2. Pré-tokenisation

Le texte est d'abord divisé grossièrement en mots et ponctuations à l'aide d'expressions régulières.

🧩

3. Encodage BPE

Byte-Pair Encoding fusionne les sous-mots les plus fréquents jusqu'à atteindre la taille de vocabulaire cible (ex : 50k tokens pour GPT-2).

🔢

4. IDs numériques

Chaque token est converti en un entier (son ID dans le vocabulaire). C'est ce vecteur d'entiers que le transformer va traiter.

📐

5. Embeddings

Chaque ID est ensuite projeté dans un espace vectoriel dense (~768 dimensions) : c'est là que le sens commence à émerger.

🎯

6. Attention

Le mécanisme d'attention permet à chaque token de "regarder" les autres pour construire une représentation contextuelle riche.

Curiosités

Les tokens qui surprennent

Quelques exemples contre-intuitifs de tokenisation.

🇫🇷 Le français coûte plus cher

Le vocabulaire BPE de GPT est entraîné majoritairement sur de l'anglais. Les mots français sont souvent découpés en plus de sous-unités.

« indisponibilité » → 5 tokens

🔢 Les nombres sont imprévisibles

« 1234 » peut être 1 token, mais « 12345 » peut en être 3. Cela explique pourquoi les LLM peinent en arithmétique.

« 1000000 » → 3-4 tokens

😀 Les emojis coûtent cher

Un emoji peut représenter 1 à 3 tokens selon l'encodage UTF-8. Les textes très émojisés gaspillent du contexte.

« 🎉 » → 1–3 tokens

🌐 Les langues rares explosent

Une phrase en arabe ou en thaï peut nécessiter 3 à 8× plus de tokens qu'en anglais pour le même sens — et donc 3 à 8× plus cher.

ratio token/mot × 4

✏️ Les espaces comptent

En BPE, l'espace précédant un mot fait souvent partie du token. « chat » et « chat » (avec espace) sont deux tokens différents !

▁chat ≠ chat

📝 Le code est efficace

Les keywords Python comme return, def, import sont souvent des tokens uniques car très fréquents dans le corpus d'entraînement.

« import » → 1 token