Comprendre la tokenisation

Avant de lire le moindre mot, un LLM découpe le texte en petits morceaux appelés tokens. Explorez ce mécanisme fondamental de manière interactive.

La tokenisation est la toute première étape (et l'une des plus cruciales) lorsqu'une IA traite du texte. Comme les modèles d'IA ne comprennent pas les lettres ou les mots comme nous, ils ont besoin de transformer le langage humain en unités mathématiques. Voici comment cela fonctionne, de manière simple (plus de détail dans l'onglet Théorie) :

  1. Le token
    Un token n'est pas forcément un mot entier. Selon la méthode utilisée, un token peut être :
    • Un mot complet ("chat")
    • Une partie de mot ("ir-", "-ré-", "-el")
    • Un signe de ponctuation ou un espace.
    En moyenne, pour l'anglais et le français, on considère que 1 000 tokens correspondent à environ 750 mots.
  2. Le processus de transformation
    Le passage du texte vers l'IA suit trois grandes étapes clés :
    1. Découpage (Splitting) : La phrase "Les élèves adorent l'intelligence artificielle !" est découpée en morceaux.
    2. Indexation : Chaque morceau unique est associé à un numéro dans un immense dictionnaire (le vocabulaire du modèle). Exemple : "chat" = 432, "mange" = 1056.
    3. Conversion en Vecteurs : Ces numéros sont ensuite transformés en listes de nombres complexes (les embeddings) que l'IA peut manipuler pour comprendre le sens.
  3. Pourquoi ne pas utiliser simplement des mots ?
    Les chercheurs ont réalisé que découper par "sous-mots" (méthode BPE ou Byte Pair Encoding) est bien plus efficace :
    • Gestion de l'inconnu : Si l'IA rencontre un mot nouveau (ex: "Dé-confinement" en 2020), elle peut le comprendre en combinant les tokens "Dé", "confine" et "ment".
    • Efficacité mémoire : Cela évite d'avoir un dictionnaire de 10 millions de mots différents ; avec 50 000 tokens de base, on peut reconstruire presque tous les mots du monde.
    • Racines communes : "Danser", "Danseur" et "Dansons" partageront le même token racine ("Dans"), ce qui aide l'IA à comprendre qu'ils parlent de la même idée.
⚠️ L'impact sur le coût et la performance
C'est ici que ça devient concret pour l'utilisateur :

Tokenise ton texte

Tape n'importe quel texte et observe comment il est découpé en tokens en temps réel.

0caractères
0tokens
0chars/token
0mots
Les tokens apparaîtront ici…

💡 Le saviez-vous ? En moyenne, 1 token ≈ 4 caractères en anglais, mais davantage en français — ce qui rend les prompts français légèrement plus coûteux. Les emojis, formules mathématiques ou mots rares utilisent souvent plusieurs tokens.

Même texte, encodages différents

Selon la stratégie choisie, le même texte produit un nombre de tokens très différent.

🎯 Byte-Pair Encoding (BPE) — utilisé par GPT — fusionne les paires de caractères les plus fréquentes de façon itérative, créant un vocabulaire de sous-mots optimisé sur un corpus massif. C'est l'équilibre idéal entre vocabulaire exhaustif (trop de mots) et caractère par caractère (trop de tokens).

Distribution des tokens dans ton texte

Colle un texte plus long pour voir quels tokens sont les plus fréquents.

Simulateur de coût API

Estimez le coût d'utilisation d'un LLM pour votre projet pédagogique.

Modèle

* Tarifs indicatifs en $/M tokens (mai 2025) — vérifier sur les sites officiels

Visualisez l'occupation de la fenêtre de contexte du modèle sélectionné.

0 tokens utilisés 128k contexte

Comment ça marche ?

Les grandes étapes de la tokenisation dans un LLM moderne.

🔤
1. Texte brut
Le modèle reçoit une chaîne de caractères. Avant tout traitement, le texte est normalisé (minuscules, unicode, espaces).
✂️
2. Pré-tokenisation
Le texte est d'abord divisé grossièrement en mots et ponctuations à l'aide d'expressions régulières.
🧩
3. Encodage BPE
Byte-Pair Encoding fusionne les sous-mots les plus fréquents jusqu'à atteindre la taille de vocabulaire cible (ex : 50k tokens pour GPT-2).
🔢
4. IDs numériques
Chaque token est converti en un entier (son ID dans le vocabulaire). C'est ce vecteur d'entiers que le transformer va traiter.
📐
5. Embeddings
Chaque ID est ensuite projeté dans un espace vectoriel dense (~768 dimensions) : c'est là que le sens commence à émerger.
🎯
6. Attention
Le mécanisme d'attention permet à chaque token de "regarder" les autres pour construire une représentation contextuelle riche.

Les tokens qui surprennent

Quelques exemples contre-intuitifs de tokenisation.

🇫🇷 Le français coûte plus cher
Le vocabulaire BPE de GPT est entraîné majoritairement sur de l'anglais. Les mots français sont souvent découpés en plus de sous-unités.
« indisponibilité » → 5 tokens
🔢 Les nombres sont imprévisibles
« 1234 » peut être 1 token, mais « 12345 » peut en être 3. Cela explique pourquoi les LLM peinent en arithmétique.
« 1000000 » → 3-4 tokens
😀 Les emojis coûtent cher
Un emoji peut représenter 1 à 3 tokens selon l'encodage UTF-8. Les textes très émojisés gaspillent du contexte.
« 🎉 » → 1–3 tokens
🌐 Les langues rares explosent
Une phrase en arabe ou en thaï peut nécessiter 3 à 8× plus de tokens qu'en anglais pour le même sens — et donc 3 à 8× plus cher.
ratio token/mot × 4
✏️ Les espaces comptent
En BPE, l'espace précédant un mot fait souvent partie du token. « chat » et « chat » (avec espace) sont deux tokens différents !
▁chat ≠ chat
📝 Le code est efficace
Les keywords Python comme return, def, import sont souvent des tokens uniques car très fréquents dans le corpus d'entraînement.
« import » → 1 token