Préparation des données pour le traitement du langage naturel
Les données entrantes doivent être préalablement traitées pour être utilisables par la fonction de traitement du langage naturel de HCL Commerce Search.
HCL Commerce Search utilise l'analyseur de langage Stanford CoreNLP pour fournir au service Query une prise en charge, une analyse grammaticale complète et une extensibilité multilingues. Les améliorations apportées par HCL Commerce Search ciblent spécifiquement les besoins des clients en ligne, donnant une plus grande réactivité et intelligence au système de recherche.
Matchmaker est également une fonction importante de l'intelligence artificielle du processeur de langage naturel. Les données doivent également être préparées en vue de leur utilisation.
- Utilisation de jetons (tokenization)
- Processus de rupture du texte en unités plus petites appelées jetons qui peuvent être traitées de différentes manières. Pour une discussion complète sur le processus d'utilisation de jetons, voir Utilisation de jetons dans la documentation Stanford CoreNLP.
- Suppression de mot neutres
- Les mots neutres sont supprimés pour que les termes uniques se distinguent pour le processeur. Pour plus d'informations, voir Suppression des termes communs : mots neutres.
- Lemmatisation et recherche du radical
- Les mots sont réduits à leur forme de base, éliminant ainsi toutes les variations sur les noms de base. Voir Recherche du radical et lemmatisation.
- Balisage de catégorie grammaticale
- Les mots et phrases individuels sont catégorisés par type : nom, verbe, préposition, etc. Voir Catégories grammaticales.
- Reconnaissance d'entité de nom (NER)
- Identifie les personnes, les entreprises et les produits dans le texte. Le service Query construit un fichier NER personnalisé, qui est une liste séparée par des tabulations de word et value, où value est la classification donnée au mot. Par exemple, un terme de recherche "chemise blanche pour fille" sera divisé en trois jetons :
white/color,shirt/categoryetgirls/category. "chemise blanche pour filles à moins de 37 $" ajouterait moins de37/filtercomme quatrième jeton. - Préparation des données pour Matchmaker
- Le service Ingest analyse les données entrantes pour trois fonctions pertinentes pour Matchmaker.
Le service de requête initialise le NLP Stanford Core en transmettant le fichier NER personnalisé à l'objet NLP Stanford Core. Lorsqu'une requête est effectuée, le terme de recherche est transmis à la méthode SearchNLPSupportProvider, qui à son tour le transmet à l'objet NLP Stanford Core). SearchNLPSupportProvider renvoie ensuite le résultat.