La tokenisation est la toute première étape (et l'une des plus cruciales) lorsqu'une IA traite du texte. Comme les modèles d'IA ne comprennent pas les lettres ou les mots comme nous, ils ont besoin de transformer le langage humain en unités mathématiques. Voici comment cela fonctionne, de manière simple (plus de détail dans l'onglet Théorie) :
- Le token
Un token n'est pas forcément un mot entier. Selon la méthode utilisée, un token peut être :
- Un mot complet ("chat")
- Une partie de mot ("ir-", "-ré-", "-el")
- Un signe de ponctuation ou un espace.
- Le processus de transformation
Le passage du texte vers l'IA suit trois grandes étapes clés :- Découpage (Splitting) : La phrase "Les élèves adorent l'intelligence artificielle !" est découpée en morceaux.
- Indexation : Chaque morceau unique est associé à un numéro dans un immense dictionnaire (le vocabulaire du modèle). Exemple : "chat" = 432, "mange" = 1056.
- Conversion en Vecteurs : Ces numéros sont ensuite transformés en listes de nombres complexes (les embeddings) que l'IA peut manipuler pour comprendre le sens.
- Pourquoi ne pas utiliser simplement des mots ?
Les chercheurs ont réalisé que découper par "sous-mots" (méthode BPE ou Byte Pair Encoding) est bien plus efficace :- Gestion de l'inconnu : Si l'IA rencontre un mot nouveau (ex: "Dé-confinement" en 2020), elle peut le comprendre en combinant les tokens "Dé", "confine" et "ment".
- Efficacité mémoire : Cela évite d'avoir un dictionnaire de 10 millions de mots différents ; avec 50 000 tokens de base, on peut reconstruire presque tous les mots du monde.
- Racines communes : "Danser", "Danseur" et "Dansons" partageront le même token racine ("Dans"), ce qui aide l'IA à comprendre qu'ils parlent de la même idée.
C'est ici que ça devient concret pour l'utilisateur :
- La facturation : Les services comme OpenAI ou Anthropic facturent au nombre de tokens (entrée + sortie), pas au nombre de caractères.
- La "fenêtre de contexte" : Chaque modèle a une limite de mémoire (ex: 128k tokens). Une fois cette limite atteinte, l'IA "oublie" le début de la conversation.
Tokenise ton texte
Tape n'importe quel texte et observe comment il est découpé en tokens en temps réel.
💡 Le saviez-vous ? En moyenne, 1 token ≈ 4 caractères en anglais, mais davantage en français — ce qui rend les prompts français légèrement plus coûteux. Les emojis, formules mathématiques ou mots rares utilisent souvent plusieurs tokens.
Même texte, encodages différents
Selon la stratégie choisie, le même texte produit un nombre de tokens très différent.
🎯 Byte-Pair Encoding (BPE) — utilisé par GPT — fusionne les paires de caractères les plus fréquentes de façon itérative, créant un vocabulaire de sous-mots optimisé sur un corpus massif. C'est l'équilibre idéal entre vocabulaire exhaustif (trop de mots) et caractère par caractère (trop de tokens).
Distribution des tokens dans ton texte
Colle un texte plus long pour voir quels tokens sont les plus fréquents.
Simulateur de coût API
Estimez le coût d'utilisation d'un LLM pour votre projet pédagogique.
* Tarifs indicatifs en $/M tokens (mai 2025) — vérifier sur les sites officiels
Visualisez l'occupation de la fenêtre de contexte du modèle sélectionné.
Comment ça marche ?
Les grandes étapes de la tokenisation dans un LLM moderne.
Les tokens qui surprennent
Quelques exemples contre-intuitifs de tokenisation.
return, def,
import sont souvent des tokens uniques car très fréquents dans le corpus
d'entraînement.