Qu’est-ce qu’un embedding ?

Un embedding est une représentation numérique (vecteur) d’un mot, d’une phrase ou d’un document dans un espace de dimension réduite.

Contrairement aux représentations traditionnelles comme le one-hot encoding, les embeddings sont des vecteurs denses qui contiennent de l’information sémantique.

Chaque mot est représenté par un vecteur de taille fixe (par exemple, 100 ou 300 dimensions), dans lequel chaque dimension encode un aspect abstrait du mot.

L’idée principale est que des mots ayant un sens similaire auront des vecteurs proches dans l’espace vectoriel.

Les embeddings sont souvent appris automatiquement à partir de grands corpus de texte, sans supervision directe.

Ils permettent aux algorithmes de traitement du langage naturel de comprendre les relations sémantiques et syntaxiques entre les mots.