Fondamentaux IA

    Tokens, embeddings, vecteurs : comment l'IA "lit" vraiment vos textes

    Pierre Lefebvre
    7 min de lecture
    Fragments de texte transformés en points dans un espace sémantique : tokens, embeddings, vecteurs

    Introduction

    Quand un dirigeant entend pour la première fois les mots "embedding", "vecteur" ou "token" dans une réunion sur l'IA, il a souvent l'impression qu'on lui parle martien. Ces concepts ont l'air abstraits, et pourtant ce sont les briques fondamentales sur lesquelles repose tout le fonctionnement des LLM modernes.

    Les comprendre n'a rien d'académique. C'est ce qui permet de saisir pourquoi une recherche IA peut être plus précise qu'une recherche par mot-clé classique, pourquoi le RAG marche aussi bien sur vos documents internes, et pourquoi une IA peut "comprendre" la similarité entre deux phrases qui n'ont aucun mot en commun.

    Cet article vous explique ces 3 concepts en 6 minutes, sans math.

    Le token : l'unité de base d'un LLM

    Un LLM ne lit pas des mots. Il lit des tokens.

    Un token est un fragment de texte, qui peut être un mot entier, une partie de mot, un signe de ponctuation ou un caractère. En français, le mot "intelligence" peut être un seul token, ou se découper en deux ("intelli-" + "gence") selon le tokenizer utilisé. Le mot "PME" est typiquement un seul token. Le mot "transformations" peut se découper en 3 ou 4 fragments.

    Pourquoi ce découpage ? Parce qu'il y a beaucoup de mots possibles dans une langue (des millions en comptant les variantes), mais beaucoup moins de fragments. Un tokenizer moderne utilise environ 100 000 tokens uniques pour couvrir toutes les langues principales. C'est plus économe pour le modèle. La tokenisation est donc l'étape préalable à tout traitement par un LLM.

    Concrètement, ça change deux choses pour vous :

    Le coût d'utilisation d'un LLM se compte en tokens, pas en mots. Un texte d'environ 750 mots fait à peu près 1 000 tokens en anglais, et 1 200 à 1 400 en français. C'est cette unité qui sert à facturer les API.

    La fenêtre de contexte d'un LLM se mesure en tokens. Quand on dit qu'un modèle a une fenêtre de contexte de 128 000 tokens, ça veut dire qu'il peut lire et raisonner sur environ 100 000 mots français en une seule passe, soit l'équivalent de 250 pages.

    L'embedding : transformer du texte en chiffres

    Un ordinateur ne sait pas raisonner sur des mots. Il sait raisonner sur des chiffres. La grande astuce derrière les LLM, c'est de transformer chaque token (et chaque texte plus généralement) en une longue liste de chiffres : c'est ce qu'on appelle un embedding.

    Concrètement, un embedding est un vecteur de plusieurs centaines à quelques milliers de dimensions. Chaque dimension capture une caractéristique sémantique du mot ou du texte, apprise pendant l'entraînement. Aucun humain ne contrôle ces dimensions individuellement, elles émergent d'elles-mêmes à partir des milliards de textes que le modèle a digérés.

    Le résultat est étonnant : des mots ou des textes proches sémantiquement se retrouvent à des positions proches dans cet espace mathématique. Le mot "voiture" est proche du mot "véhicule" et du mot "automobile", mais loin du mot "girafe". Et ça vaut aussi pour des phrases entières : "Comment résilier mon abonnement ?" est proche de "Je veux annuler mon contrat", même si aucun mot n'est en commun.

    Le vecteur : un point dans un espace sémantique

    Un embedding, techniquement, est un vecteur. Et un vecteur peut être vu comme un point dans un espace à plusieurs centaines de dimensions. C'est cet espace sémantique qui permet à un LLM de "comprendre" la signification d'un texte au-delà des mots eux-mêmes.

    Imaginez une carte 2D où chaque point représente un texte. Les textes sur la cuisine seraient regroupés dans une zone, ceux sur le sport dans une autre, ceux sur la finance ailleurs encore. Un embedding fonctionne pareil, sauf qu'au lieu d'une carte 2D, on a une carte à 1 536 dimensions (pour OpenAI) ou 4 096 dimensions (pour Mistral). Cette richesse de dimensions permet de capturer des nuances très fines : ton, registre, sujet, intention, sentiment.

    Pour mesurer si deux textes sont proches sémantiquement, on calcule la distance entre leurs vecteurs (typiquement par similarité cosinus). C'est ce calcul qui permet à un moteur de recherche IA de retrouver le bon document même si la question utilise des mots différents que ceux du document cible.

    Pourquoi ça change tout pour votre PME

    Ces 3 concepts ne sont pas que de la théorie. Ils sous-tendent 3 technologies très concrètes qui transforment l'usage de l'IA en entreprise :

    La recherche sémantique. Au lieu de chercher dans une base documentaire avec des mots-clés exacts, vous pouvez chercher avec une question en langage naturel et obtenir les documents pertinents même si les termes ne correspondent pas mot pour mot. Pour une PME avec des centaines de procédures, contrats ou comptes rendus, c'est un saut de productivité majeur.

    Le RAG (Retrieval-Augmented Generation). En combinant la recherche sémantique avec un LLM, vous obtenez un assistant qui répond à vos questions en s'appuyant exclusivement sur vos documents internes. Pas d'hallucinations, pas de données inventées : la réponse vient de votre propre base.

    Le clustering automatique. En analysant les embeddings de vos tickets clients, emails, ou commentaires, vous pouvez découvrir automatiquement les grandes catégories de demandes sans avoir à coder de règles. C'est précieux pour comprendre rapidement la voix du client.

    Bases vectorielles : où vivent les embeddings

    Pour exploiter ces vecteurs en production, on ne peut pas les stocker dans un Excel. On utilise des bases vectorielles spécialisées (Pinecone, Qdrant, Weaviate, Chroma, ou Postgres avec l'extension pgvector pour les budgets serrés). Ces bases sont optimisées pour retrouver les vecteurs les plus proches d'un vecteur donné en quelques millisecondes, même dans des collections de plusieurs millions de documents.

    Pour une PME, c'est une infrastructure très accessible aujourd'hui. Mettre en place une base vectorielle, indexer vos documents et l'interroger via un LLM coûte typiquement quelques milliers d'euros pour un POC. Ce qui était de la science-fiction il y a 5 ans est devenu un standard d'intégration en 2026.

    Ce qu'il faut retenir

    Tokens, embeddings, vecteurs : ce sont les briques sur lesquelles tournent tous les LLM modernes. Le token est l'unité de découpage du texte. L'embedding est sa traduction en chiffres. Le vecteur est sa représentation dans un espace sémantique mathématique.

    Au quotidien, vous n'avez pas à manipuler ces concepts. Mais les comprendre vous aide à comprendre pourquoi l'IA peut faire des choses qu'aucune recherche par mot-clé ne savait faire avant : retrouver un document à partir d'une question vague, regrouper automatiquement des contenus similaires, ou répondre à partir de votre base documentaire interne.

    Si vous voulez explorer concrètement ce que ces technologies peuvent apporter à votre PME, hIAppy Lab prototype un cas d'usage RAG sur vos documents en 5 à 15 jours.

    Questions fréquentes

    Est-ce que je dois savoir ce qu'est un embedding pour utiliser une IA en PME ?+

    Non, pas pour utiliser. Mais oui, pour bien acheter. Comprendre que l'IA s'appuie sur des embeddings vous aide à juger une proposition commerciale, à choisir entre deux solutions, et à comprendre pourquoi certaines demandes (recherche sémantique, RAG) sont plus complexes que d'autres.

    Combien coûte le calcul d'embeddings pour mes documents ?+

    Très peu. Les modèles d'embedding modernes (OpenAI, Mistral, Voyage) facturent autour de 0,02 à 0,10 euros pour 1 million de tokens, soit environ 750 000 mots. Pour une PME qui veut indexer toute sa base documentaire (par exemple 10 000 documents de 5 pages chacun), le coût initial est de quelques dizaines à quelques centaines d'euros.

    Faut-il une base vectorielle séparée ou peut-on utiliser sa base de données existante ?+

    Pour des volumes inférieurs à 100 000 documents, l'extension pgvector dans PostgreSQL suffit largement et évite d'ajouter une dépendance. Au-delà, ou pour des cas exigeant une latence très faible, une base vectorielle dédiée (Pinecone, Qdrant) devient pertinente.

    Tags

    Embeddings
    Fondamentaux IA
    Recherche sémantique
    PME et ETI

    Partager cet article

    Pierre Lefebvre

    Fondateur de hIAppy, expert en intelligence artificielle et transformation digitale des entreprises.

    Nous utilisons des cookies pour la mesure d'audience et, avec votre accord, pour des fonctionnalités publicitaires. Vous pouvez accepter ou refuser.

    hIAppyen ligne

    Répondre

    hIAppy

    IA • En ligne

    Bonjour ! 👋

    Je suis l'assistant IA de hIAppy. Comment puis-je vous aider à explorer l'IA pour votre entreprise ?