Qu'est-ce qu'une Intelligence Artificielle ?

Qu'appelle-t-on IA ? Comprendre simplement le fonctionnement, les usages et les limites de l'intelligence artificielle.

Dans cet article

Définition

Une intelligence artificielle (IA) est un programme informatique capable d'imiter certaines capacités humaines comme :

  • apprendre à partir de données
  • reconnaître des images ou des sons
  • comprendre et produire du langage
  • prendre des décisions

Contrairement à un humain, une IA ne pense pas : elle applique des algorithmes et des modèles mathématiques.

historique

Comment fonctionne une IA ?

Les intelligences artificielles modernes comme ChatGPT reposent sur des LLM (Large Language Models), c’est-à-dire de grands modèles de langage entraînés sur d’immenses quantités de textes.

Un LLM fonctionne en découpant le texte en tokens (mots, parties de mots ou signes), puis en prévoyant le token suivant le plus probable selon le contexte. Cette prédiction est répétée des milliers de fois pour produire une réponse complète.

Grâce à un mécanisme appelé attention, le modèle repère les éléments importants d’une phrase et maintient la cohérence du discours. Cependant, l’IA ne pense pas et ne comprend pas : elle génère du texte à partir de statistiques apprises lors de son entraînement.

token
Pour faire simple :

icon Qu'est-ce qu'un token ?

Un token est un morceau de mot.
Les LLM ne lisent pas les phrases : Ils lisent (prédisent) une suite de tokens.
Intelligence : intel-lig-ence

icon Leur travail :
prédire le token suivant

Le LLM ne réfléchit pas.
L'IA calcule et fait des choix : Quel token a la plus forte probabilité ?
le ciel est... Bleu (90%) / Gris (10%)

icon Pourquoi elle hallucine ?

Le LLM prédit.
Même sans assez d'informations
Manque de contexte :
inventions, imprécisions, réponses trompeuses
Pour aller plus loin :

Nous retiendrons donc que la tokenisation est la toute première étape (et l'une des plus cruciales) lorsqu'une IA traite du texte. Comme les modèles d'IA ne comprennent pas les lettres ou les mots comme nous, ils ont besoin de transformer le langage humain en unités mathématiques.
Pour aller plus loin (si vous le souhaitez), je vous propose un outil interactif permettant de comprendre en détail le phénomène. Voir l'outil de tokénisation

Exemple : reconnaissance d'images

Pour apprendre à reconnaître un chat, une IA analyse des milliers d'images annotées.

Images de chats
et non-chats
Analyse des formes
et couleurs
Apprentissage
"Ceci est un chat"

Les différents types d'intelligence artificielle

Selon Stuart Russell, ingénieur et co-auteur du manuel de référence Artificial Intelligence: A Modern Approach, il existe cinq niveaux d'IA classés selon leurs capacités et leur niveau d’autonomie.

Niveau 1 : IA faible (ou IA réactive)

L’IA faible est conçue pour accomplir une seule tâche précise. Elle ne comprend pas ce qu’elle fait et ne peut pas sortir de son domaine. Elle ne possède aucune mémoire et ne peut pas apprendre de ses expériences passées. Elle se contente de réagir à des situations précises, selon des règles programmées à l’avance. Deep Blue, l’ordinateur d’IBM qui a battu le champion d’échecs Garry Kasparov en 1997, est un exemple d’IA réactive, qui analysait chaque situation en temps réel, sans rien retenir des parties précédentes.

  • assistants vocaux
  • reconnaissance d’images
  • traduction automatique

Niveau 2 : L’IA à mémoire limitée

L'IA à mémoire limitée fonctionne en analysant de grandes quantités de données afin de repérer des motifs (patterns).

Contrairement à l’IA réactive, l’IA à mémoire limitée peut apprendre à partir de données passées. Elle s’appuie sur ce qu’on appelle le machine learning, ou apprentissage automatique, pour améliorer ses performances au fil du temps.

  • voitures autonomes
  • les recommandations Netflix
  • les algorithmes prédictifs utilisés en marketing

Les outils d’IA les plus populaires comme Midjourney, Dall-E ou ChatGPT sont des IA à mémoire limitée, entraînées à partir de millions de textes ou d’images. Il s’agit toujours d’une IA faible, car ses capacités restent limitées à des tâches bien précises. Mais ses applications IA sont déjà très puissantes et en constante évolution.

Pour faire simple :

icon Les données

Nourrir l'IA
Textes, images, sons, vidéos... L'IA a besoin de données pour apprendre. Les données doivent être variées et de qualité pour que l'IA deviennent performantes.
Pour reconnaître un chat, l'IA est entraînée avec des millions de photos de chat.

icon Les algorithmes

Analyser et trouver des patterns
Programmes qui recherchent les occurrences dans les données et en tirent des règles.
L'algorithme finit par comprendre que 2 "oreilles pointues", des "moustaches" + "fourrure" est sans doute un chat.

icon L'apprentissage

S'améliorer avec le temps
Plus l'IA s'entraîne plus elle améliore et affine ses réponses. C'est le "Machine Learning".
Au fil du temps, les propositions de votre plateforme vidéo sont de plus en plus pertinentes et vous correspondent.

Niveau 3 : La "théorie de l'esprit"

L'IA avec théorie de l'esprit serait capable de comprendre les émotions, les croyances, les intentions et les désirs d’autrui. Elle pourrait raisonner sur la façon dont les autres voient le monde et adapter son comportement en conséquence. Ce niveau représente une avancée majeure vers une véritable intelligence sociale et émotionnelle. Des études rigoureuses montrent que même les modèles les plus avancés restent en retrait de la performance humaine.

Niveau 4 : L'IA consciente de soi (Self-Aware AI)

👉 Ce type d’IA n’existe pas encore aujourd’hui.

L’IA consciente de soi posséderait une conscience, une identité propre, des désirs et une capacité à ressentir. Elle serait consciente de sa propre existence et aurait ses propres expériences subjectives. Ce niveau représente l’étape ultime de la conscience artificielle, un concept qui se situe bien au-delà de la simple imitation du comportement humain.

Niveau 5 : L’IA superintelligente (ASI) et l’AGI

👉 Ce type d’IA n’existe pas encore aujourd’hui.

Ce niveau englobe l’AGI (IA générale, capable de résoudre toute tâche intellectuelle humaine) et l’ASI ( IA superintelligente, qui dépasserait l’intelligence humaine dans tous les domaines). En 2026, ces concepts sont purement spéculatifs. L’émergence de l’ASI soulève des questions fondamentales sur le contrôle, la sécurité et l’impact sur l’humanité.

5 niveaux d'IA

Pour aller plus loin : modélisation d'un neurone artificiel et erreurs

Vous avez dit réseau de neurones ?

C'est le cœur de la révolution actuelle en IA. Pour faire simple, un réseau de neurones artificiels est un modèle mathématique inspiré (très librement) du fonctionnement des neurones biologiques de notre cerveau. Leur but ? Apprendre à transformer une entrée (une image, un texte, un son) en une sortie cohérente (une prédiction, une traduction, une catégorie).
Je passerai rapidement sur les termes techniques (Input Layer, Hidden Layers, Output Layer) pour m'attarder sur la transposition d'un cas concret en écriture mathématique. Le but ?

Montrer que la machine n'apprend pas ! Elle calcule !

Cas d'un seul neurone

On va prendre un seul fil conducteur : Prédire si un étudiant va réussir un examen (Oui / Non).
On donne au modèle des données d'entrée que nous appellerons $x$ :

  • heures de travail
  • moyenne annuelle
  • taux de présence

Et on veut qu’il prédise la valeur de $y$ :

  • 1 = réussite
  • 0 = échec

Le neurone artificiel va apprendre à transformer ces informations en une décision. Il va donc apprendre à passer de l'espace des $x$ à celui des $y$ grâce à une fonction de passage. On veut donc apprendre : $$y=f(x)$$ Cela étant dit, il ne suffit pas d'être présent en classe pour avoir l'examen. Le travail va donc être plus important que le taux de présence (même si ce dernier n'est pas négligeable).

Un neurone fait donc 3 choses :

  1. Il multiplie chaque entrée $x_i$ par un poids $\omega_i$ et ajoute un biais $b$ $$z = \omega_1x_1 + \omega_2x_2 +\omega_3x_3 +b$$
  2. Il additionne le tout
  3. Il applique une petite transformation : fonction activation $\sigma$ qui transforme le résultat en probabilité (ex : sigmoïde)

Fonction Sigmoïde

σ(z) = 1 / (1 + ek(z − z₀))

1.0
0.0

On peut donc noter $$\hat{y} = \sigma(z)$$ l'estimation de la valeur de sortie (probabilité) donc en composant avec la fonction $z$, on a une forme compacte : $$\hat{y} = \sigma(\omega^Tx+b)$$ $\omega^T$ est une notation matricielle, le $T$ signifiant transposée : $\omega^T x= \sum_{i} \omega_i x_i$. Ne nous attardons pas là-dessus et soyons concrets et reprenons l'exemple de notre étudiant :

  • 10h de travail
  • moyenne 14
  • présence 90%

donc :

  • Les entrées : $x (10,14,90)$
  • Le poids de chaque entrée : $\omega(0.2,0.5,0.01)$
x= σ=

Le neurone pourrait donc calculer : $$z=(10 \times 0.2)+(14 \times 0.5)+(90 \times 0.01)$$ 👉Les coefficients de pondération (poids) sont choisis arbitrairement ici. Si la moyenne compte plus que la présence, son poids sera plus grand.

Ensuite on applique la fonction d'activation $\sigma$ qui transforme le résultat en probabilité entre 0 et 1.
$$\hat{y} = \sigma(z)$$ Par exemple : 0.82 → 82% de chance de réussir. Le neurone artificiel a fait son travail ! Limpide non ? 😎

Pourquoi plusieurs neurones ?

Un seul neurone est limité : Il fait une seule combinaison des données. La réussite peut dépendre de choses plus complexes :

  • "travaille beaucoup MAIS mauvaise moyenne"
  • "moyenne "bof" MAIS très assidu"
  • profil irrégulier

Mathématiquement, un seul neurone correspond à un modèle linéaire $$\hat{y} = \sigma(\omega^Tx+b)$$ Cela revient à tracer une frontière de décision dans l'espace des données : une droite si on a 2 variables, un plan (3 variables), un hyperplan en dimension $n$.
La relation réelle (et au réel) est plus complexe. Notre modèle n'est pas faux mais simpliste et donc incomplet, il faut alors rajouter une couche !

La couche cachée

Imaginons donc un neurone caché (supplémentaire) qui va donc calculer : $$h = \sigma(W_1x+b1)$$ où :

  • $W_1$ est donc une matrice
  • $h$ est un vecteur des nouvelles représentations

Si on généralise, chaque neurone caché va calculer :
$$h_j = \sigma(w_j^Tx+b_j)$$ donc la couche entière : $$h = \sigma(W_x+b)$$ Exemple :

  • neurone 1 pourrait calculer $h_1$ : détecte "travail intense"
  • Neurone 2 pourrait calculer $h_2$ : détecte "profil régulier"
  • Neurone 3 pourrait calculer $h_3$ : détecte "profil fragile"

Ces neurones ne donnent pas la décision finale, ils constituent des "résumés pertinents" des données. Le réseau de neurones formé construit donc une nouvelle variable : $$x → h(x)$$ Une autre couche combinera ces résumés pour produire la prédiction finale.

Non linéarité

Nous l'avons vu, le réel est complexe et une simple relation de linéarité constitue un frein à une description pertinente. On peut imaginer ceci :

  • Travailler peu → échec
  • Travailler beaucoup → réussite
  • MAIS travailler énormément sans comprendre → échec

La relation ne peut donc en aucun cas être linéaire, un modèle trop simple ne peut pas gérer ce genre de chose. Comment peut-on alors transposer cela mathématiquement et s'en sortir ?

Notre salut viendra de la fonction d'activation $\sigma$. Imaginons un cas sans activation : $$Wx+b$$ Cette transformation reste linéaire. Même si on compose, si on empile plusieurs couches linéaire avec ce type de transformation : $$W_2(W_1x)$$ reste équivalent à une seule matrice qui, par extension, reste une transformation linéaire.
Mais si on introduit subtilement une activation : $$\sigma(W_2(\sigma(W_1x)))$$ aboutit à une fonction non linéaire (d'où l'intérêt d'une fonction d'activation sigmoïde par exemple) ! On peut donc gérer des cas complexes ! 😎

Apprentissage du réseau

Au départ, les coefficients de pondération (poids) sont choisis au hasard. Il en découle logiquement de mauvaises prédictions.
Exemple : Le modèle prédit 30 % de réussite alors que l'étudiant "mauvais" a réussi.
On va donc donc mesurer l'erreur puis ajuster les coefficients pour réduire cette erreur. Si on imagine ce processus répété des milliers de fois... Petit à petit, les coefficients corrects apparaissent et les mauvais disparaissent. Le réglage fait, Le réseau neuronal parvient à gérer une situation complexe.

Transposition au formalisme mathématique :
Les $N$ neurones du réseau nous fournissent un ensemble de données : $${\{(x_i,y_i)\}}_{i=1}^N$$ On définit alors une fonction de perte (par exemple une classification binaire) : $$L = - \frac{1}{N} \sum_{i=1}^{N} [y_ilog(\hat{y_i})]$$ Donc plus la prédiction est mauvaise, plus la perte est grande.
Il va donc falloir mettre à jour les paramètres du système c'est à dire poids et biais pour chaque couche ! En gros, on ajuste la valeur des éléments des matrices "poids" et "biais". $$\omega_{ij} \leftarrow \omega_{ij}-\eta \frac{\partial L}{\partial \omega_{ij}}$$ $$b_k \leftarrow b_k-\eta \frac{\partial L}{\partial b_k}$$ Disons que pour simplifier les écritures précédentes, on notera $\theta$ l'ensemble des paramètres à ajuster tel que : $$\theta = \{W_1,b_1,W_2,b_2...\}$$ Il vient donc : $$\theta \leftarrow \theta -\eta \nabla_\theta L$$ avec :

  • $\eta$ = taux d'apprentissage
  • $\nabla_\theta L$ = direction d'augmentation de l'erreur

On touche ici au cœur du problème... En machine learning, dire que le réseau neuronal apprend revient, pour la machine, à trouver les $\omega$ et $b$ les plus adaptés tels que : $$\omega_{nouveau} \leftarrow \omega_{ancien}-\eta \frac{\partial L}{\partial \omega}$$ $$b_{nouveau} \leftarrow b_{ancien}-\eta \frac{\partial L}{\partial b}$$ par itérations successives... La machine n'apprend pas, elle calcule ! CQFD...
Plus le nombre d'itérations est important, plus la prédiction est fine.
En résumé, un réseau de neurones :

  • Calcule une combinaison linéaire $$Wx=b$$
  • Applique une non-linéarité $$\sigma(.)$$
  • Répète cela sur plusieurs couches
  • Ajuste ses paramètres pour minimiser $$L(\theta)$$

Reprenons pour finir l'exemple de notre étudiant et supposons un seul facteur : heures de travail donc un seul neurone :

  • Au début, le poids est de 0,1 pour 10h : prédiction faible
  • Mais on observe que les étudiants qui travaillent 10h réussissent souvent.
  • Le modèle augmente progressivement le poids : 0,1 → 0,2 → 0,4 → 0,6
  • Ainsi, plus d’heures = plus forte probabilité de réussite.

Mon neurone en action !

neurone

🧠 Ça vous dit de voir un neurone en action ? cliquez ici
J'ai modélisé un neurone artificiel pour mieux comprendre son fonctionnement. Promis, plus de maths. 🫣

Gestion des erreurs chez les LLM : Une limite structurelle

Comme nous l'avons vu, les modèles de langage (LLM) d'aujourd’hui reposent sur un principe fondamental : ils prédisent le mot suivant à partir de probabilités, en se basant sur d’immenses quantités de données. Cette approche permet des performances impressionnantes, mais elle implique aussi une réalité incontournable : les erreurs ne peuvent pas être totalement éliminées.

Les recherches en intelligence artificielle ont mis en évidence l’existence de lois d’échelle (scaling laws) : plus on augmente la taille des modèles, les données et la puissance de calcul, plus les performances s’améliorent. Cependant, ces améliorations suivent une courbe particulière : elles sont rapides au début, puis ralentissent progressivement, jusqu’à atteindre une forme de plateau. Ce phénomène est appelé asymptote.

Concrètement, cela signifie que même en mobilisant des ressources considérables, les modèles convergent vers un niveau minimal d’erreur qu’ils ne peuvent pas dépasser. Cette limite provient de plusieurs facteurs : la qualité imparfaite des données d’entraînement, la nature probabiliste du modèle, et l’absence de compréhension réelle du monde ou de raisonnement profond.

Ainsi, augmenter simplement la puissance de calcul ne suffit plus à réduire significativement les erreurs. Les gains deviennent de plus en plus faibles, tandis que les coûts explosent. On parle alors de rendements décroissants.

Pour franchir cette limite, les chercheurs explorent d’autres pistes : amélioration de la qualité des données, nouvelles architectures, intégration de mémoire ou de capacités de raisonnement, ou encore hybridation avec des systèmes symboliques. Ces approches visent non plus seulement à progresser le long de la courbe, mais à déplacer la courbe elle-même.

En résumé, les LLM ne sont pas simplement limités par la puissance de calcul disponible, mais par des contraintes plus profondes liées à leur fonctionnement. Comprendre cette gestion des erreurs est essentiel pour appréhender à la fois leurs forces et leurs limites actuelles.

Modélisation

Dans une première approche très simple, on peux modéliser l'erreur par la relation suivante : $$Erreur = E_{min} + a (compute)^{-\alpha}$$ avec :
$E_{min}$ : erreur incompressible
$a$ : difficulté du problème
$\alpha$ : vitesse de l'apprentissage
$compute$ : puissance (GPU, taille du modèle, données)

De faon intuite, on comprend bien que nous devons lutter contre deux choses :

  • La pente $\alpha$, c'est à dire à quelle vitesse le modèle progresse
  • l'asymptote (le mur) $E_{min}$ c'est à dire la limite que le modèle ne peut pas franchir

📉 Modèle de Scaling Laws (IA)

Où utilise-t-on l'IA ?

L'intelligence artificielle en n'est plus un gadget futuriste mais une couche invisible qui s'est glissée dans presque tous nos gestes. Elle ne se contente plus de répondre à des questions ; elle anticipe et orchestre des tâches complexes.

  • Assistants vocaux (Siri, Alexa…)
  • Recommandations (Netflix, YouTube)
  • Reconnaissance faciale
  • Traduction automatique
  • Voitures autonomes
  • Interprétation des images médicales et "Well-Tech"
  • Éducation et aide à l'apprentissage par micro-learning ou co-enseignement

Exemple de la "Well-Tech" : Le concept de la Well-Tech (contraction de Wellness et Technology) est relatif à l'introduction de l'intelligence artificielle dans la gestion de la santé et du domaine médical. L’IA ne se contente plus de compter vos pas ; elle agit comme un système nerveux numérique périphérique qui surveille, analyse et régule votre état physiologique et mental en temps réel.

  • L'analyse biométrique prédictive : Grâce aux capteurs de nouvelle génération (bagues connectées, patchs épidermiques, vêtements intelligents), l'IA traite des données massives pour détecter des anomalies avant même que vous ne ressentiez de symptômes.
    • Le score de "Pris de conscience" (Readiness) : L'IA croise la qualité de votre sommeil paradoxal, votre variabilité de la fréquence cardiaque (VFC) et votre température basale. Elle peut vous dire : "Votre corps récupère mal, réduisez l'intensité de votre séance de sport aujourd'hui pour éviter une blessure."
    • Glycémie en temps réel : Pour les non-diabétiques, le suivi du glucose permet d'ajuster l'alimentation pour éviter les "coups de barre" de 15h, optimisant ainsi l'énergie cognitive.
  • La gestion de la charge mentale et du stress : C'est ici que l'IA devient un véritable bouclier psychologique.
    • Détection du stress par la voix et le clavier :Des algorithmes analysent les micro-variations de votre ton de voix lors d'appels ou votre vitesse de frappe au clavier. Si des signes d'agacement ou d'anxiété apparaissent, votre assistant peut suggérer une micro-méditation ou bloquer vos notifications pendant 15 minutes.
    • Thérapie assistée par IA : Des agents conversationnels spécialisés (basés sur la thérapie cognitivo-comportementale) offrent un soutien immédiat en cas de crise d'angoisse, permettant de "décharger" ses émotions de manière anonyme et structurée.
  • L'optimisation de l'environnement (Smart Home Santé) : L'IA pilote votre domicile pour servir votre biologie :
    • Lumière : Ajuste la température de couleur (cycle circadien) pour améliorer la sécrétion de mélatonine le soir.
    • Air : Purifie et ajuste le taux d'humidité selon vos allergies pour réduire les inflammations respiratoires.
    • Audio : Génère des fréquences (binaural beats) pour la concentration afin d'augmenter la productivité sans stimulants.
  • Nutrition et "Bio-individualité" : L'IA a mis fin aux régimes génériques.
    • Cuisines connectées : Votre réfrigérateur sait ce qu'il vous reste et l'IA propose des recettes basées sur vos carences détectées par vos analyses de sang récentes (partagées via sécurisation blockchain).
    • Suppléments sur mesure : Des imprimantes 3D de compléments alimentaires peuvent créer chaque matin une gélule unique contenant exactement les vitamines et minéraux dont votre corps a besoin ce jour précis.

Le risque : L'orthorexie numérique :
Le danger de la Well-Tech est de devenir "obsédé par les chiffres". En , les psychologues alertent sur la tendance à ne plus écouter ses propres sensations physiques au profit des graphiques de l'IA. Il est crucial de garder une autonomie sensorielle.

Remarque : La plupart de ces systèmes utilisent désormais le Edge AI (intelligence artificielle locale). Vos données de santé ne sont plus envoyées sur un serveur centralisé mais traitées directement sur votre montre ou téléphone pour garantir une confidentialité totale.

Limites et questions éthiques

Cette partie sera développée plus longuement dans la section Cadre et défis

L'intelligence artificielle pose aussi des questions importantes :

  • biais dans les données
  • respect de la vie privée
  • dépendance aux technologies
  • impact sur l'emploi et l'environnement

L'IA est un outil puissant, mais elle doit être utilisée de manière responsable.

Lexique de l'IA

Voici un lexique des 30 termes les plus importants du monde l'IA selon leur catégorie.
Voir le lexique