Quel est le rôle des vecteurs dans un LLM ?
Client :
Entre mon prompt et la réponse du LLM, qu’est-ce qui se passe exactement ? Et pourquoi on parle autant de vecteurs dans l’IA générative ?
Moi :
Très bonne question.
Le point clé est simple: un LLM ne manipule pas des “mots” comme nous. Il manipule des nombres.
Ces nombres sont organisés sous forme de vecteurs.
Un vecteur, ici, c’est une liste de valeurs qui représente un token (morceau de mot), une phrase, ou même un document.
Ce qui se passe entre votre prompt et la réponse
Quand vous envoyez un prompt, le modèle suit une chaîne d’étapes:
- Découpage en tokens
Le texte est découpé en unités (mots, morceaux de mots, ponctuation). - Transformation en vecteurs
Chaque token est converti en vecteur numérique (embedding). - Calcul d’attention
Le modèle compare les tokens entre eux pour voir ce qui est le plus important dans le contexte. - Prédiction du token suivant
Il calcule des probabilités et choisit le token le plus probable (ou un token proche selon la température). - Boucle de génération
Le token produit est ajouté au contexte, puis le modèle recommence jusqu’à produire la réponse complète.
En clair, la réponse se construit token par token, pas d’un seul coup.
Pourquoi les vecteurs sont centraux
Les vecteurs permettent au modèle de capter des proximités sémantiques.
Par exemple, dans l’espace vectoriel:
- “facture” sera proche de “paiement”,
- “contrat” sera proche de “clause”,
- “retard” sera plus proche de “délai” que de “marketing”.
Cette géométrie aide le modèle à garder une cohérence de sens, même si les formulations changent.
Un exemple métier
Imaginons que vous écriviez:
Prépare une réponse client sur un retard de livraison, ton rassurant, 5 lignes max.
Le modèle va:
- transformer cette consigne en vecteurs,
- comprendre les contraintes (retard, ton rassurant, longueur),
- générer une phrase,
- vérifier à chaque token si la suite reste cohérente avec le contexte.
Ce n’est pas de la magie. C’est une suite de calculs de probabilités dans un espace vectoriel.
Pour le voir de manière encore plus concrète, voici un exemple minimal.
Un exemple de découpage: texte, tokens, vecteurs
Prenons cette phrase:
Le client demande un devis rapide.
Un découpage possible en tokens:
Leclientdemandeundevisrapide.
Selon le tokenizer, certains mots peuvent aussi être coupés (exemple: rap + ide).
Ensuite, chaque token est transformé en vecteur numérique.
Exemple simplifié (4 dimensions uniquement pour illustrer):
Le->[0.12, -0.44, 0.08, 0.31]client->[0.91, 0.15, -0.22, 0.07]demande->[0.55, -0.11, 0.49, -0.03]devis->[0.88, 0.34, -0.09, 0.12]rapide->[0.41, -0.05, 0.77, -0.21]
Dans un vrai modèle, les vecteurs ont souvent des centaines ou des milliers de dimensions, mais la logique reste la même.
Vecteur vers calcul matrice: ce qui se passe
Un vecteur seul ne suffit pas.
Pour produire un résultat utile, le modèle applique des opérations matricielles sur ces vecteurs.
En version très simple:
- le token est représenté par un vecteur
x, - ce vecteur est multiplié par une matrice de poids
W, - on obtient un nouveau vecteur
yqui contient une information transformée.
On peut l’écrire comme ceci:
y = W x
Pourquoi c’est important?
Parce que ces multiplications permettent au modèle:
- de mélanger les informations,
- de faire ressortir certains signaux,
- de construire des représentations plus utiles couche après couche.
Dans un LLM, cette logique est répétée un très grand nombre de fois (avec plusieurs matrices), ce qui permet de passer d’un texte brut à une prédiction pertinente du token suivant.
Et dans un système RAG, où interviennent les vecteurs ?
Dans un système RAG, les documents internes sont aussi convertis en vecteurs.
Quand vous posez une question, le système cherche les vecteurs les plus proches de votre prompt pour retrouver les bons passages.
Ensuite, ces passages sont injectés dans le contexte du modèle avant génération.
Donc:
- les vecteurs servent a retrouver la bonne information (RAG),
- puis servent à générer la bonne formulation (LLM).
Ce que je recommande de retenir
Si vous êtes côté métier, retenez 3 idées:
- Un LLM fonctionne d’abord comme une machine qui prédit en utilisant les probabilités.
- Les vecteurs sont le langage interne qui permet de représenter le sens.
- La qualité de la réponse dépend autant du contexte fourni (prompt, documents, contraintes) que du modèle lui-même.
Mieux vous cadrez l’entrée, plus la sortie sera utile, fiable et actionnable.