Embeddings contextualisés (Contextualized Word Embeddings)
Ces embeddings tiennent compte du contexte dans lequel le mot apparaît.
Le même mot peut donc avoir plusieurs représentations différentes selon la phrase (ex : “bark” en anglais peut désigner un aboiement ou une écorce).
Utilisent des architectures avancées comme les réseaux LSTM bidirectionnels ou les Transformers.
Exemples :
-
ELMo: produit un vecteur pour chaque mot en tenant compte de toute la phrase, via des LSTM bidirectionnels. -
BERT : modèle basé sur les Transformers; produit des vecteurs contextuels riches pour chaque mot. -
GPT, RoBERTa, XLNet, etc.: d’autres variantes de modèles préentraînés de type Transformer.
Avantages :
très performants, capturent le sens réel du mot dans son contexte.
Inconvénients :
lourds à entraîner et à déployer, difficilement interprétables.