SpaCy : Comment l’utiliser sous Python ?

Aujourd’hui, les données textuelles non structurées sont produites à grande échelle et représentent une source de données à condition de savoir les exploiter. Il est important de les traiter et d’en tirer des conclusions. Pour ce faire, les données doivent être représentées dans un format qui peut être compris par les ordinateurs. SpaCy peut nous aider à le faire.

SpaCy : qu’est-ce que c’est ?

SpaCy est une bibliothèque Python open source pour le traitement du texte et des langues naturelles. Elle est conçue pour développer des applications NLP avancées rapidement et pour résoudre de nombreuses tâches NLP avec la vitesse, la précision et la performance de pointe.

Tokenisation

La tokenisation cherche à transformer un texte en une série de tokens individuels tels que chaque token représente un mot ou une ponctuation.

Lemmatisation

Le but de la lemmatisation est de réduire les formes infractionnelles et parfois les formes dérivées d’un mot à une forme de base commune, et ainsi réduire la taille du vocabulaire et faciliter les tâches du NLP tels que l’étude des relations entre les mots et la modélisation de sujets.

PoS Tagging

Le Part-of-Speech Tagging ou l’étiquetage grammatical en français essaye d’attribuer une étiquette à chaque mot d’une phrase représentant la classe grammaticale d’un mot (nom propre, adjectif, déterminant, etc). Le modèle est capable de construire un graphe définissant la relation entre tous les mots, ce qui permet donc d’en déduire le Part-of-Speech.

Stop Words

Les stop words sont établis comme des listes de mots. Ces listes sont généralement disponibles dans toutes les librairies comme SpaCy et dans beaucoup de langues différentes.

 

Word Embedding

Le Word Embedding (ou plongement lexical en français) est une méthode d’encodage qui vise à représenter les mots ou les phrases d’un texte par des vecteurs de nombres réels, décrits dans un modèle vectoriel (ou Vector Space Model).

Scroll to Top