Configuration de l'explorateur de contenu de site

L'explorateur de contenu de site utilise des fichiers de configuration et des fichiers de manifeste pour déterminer le comportement de l'explorateur de contenu de site.

Vous pouvez lancer l'explorateur de contenu de site en accédant à l'URL suivante :
http://searchHost:port/search/admin/resources/crawler?action=start&langId=langId&storeId=storeId&catalogId=catalogId
Paramètres contextuels obligatoires
langId
Identificateur numérique interne qui représente la langue, par exemple, -1 pour l'anglais.
storeId
Identificateur numérique interne qui représente le magasin, par exemple, 10001.
catalogId
Identificateur numérique interne qui représente le catalogue, par exemple, 10001.

Les deux variables suivantes sont automatiquement remplies par le moteur d'exécution : hostname et portnum, qui seront respectivement le nom d'hôte du serveur de magasin et son numéro de port.

L'explorateur de contenu de site s'appuie sur les fichiers de configuration d'entrée suivants, qui se trouvent dans ce répertoire Liberty/usr/servers/searchServer/resources\search\index\crawler\ext\ :
droidConfig.xml
Le fichier de configuration de l'explorateur de contenu de site contient des variables et des paramètres qui déterminent le comportement de l'explorateur de contenu de site. Les variables spécifiées dans le fichier de configuration de l'explorateur de contenu de site sont ensuite utilisées pour remplir davantage les valeurs dans le fichier de configuration.
Paramètres
initialLocations
L'URL de départ de l'explorateur de contenu de site.
Important : Vous devez mettre à jour l'URL de départ de l'explorateur de contenu de site pour qu'il fonctionne correctement.
Par exemple :
https://${hostname}:${portnum}/shop/StaticContentSitemap?storeId=1&langId=-1&catalogId=10502
relativePath
S'il est spécifié, le chemin relatif est omis des URL ajoutées dans le fichier manifeste. Par exemple :

4,StaticContent/Recipe.html,8fa661c4-f812-4b3c-aa5c-361894120d23.html,text/html,UTF-8,A,3 
S'il n'est pas spécifié, un chemin d'accès absolu est défini dans les URL. Par exemple :

4,http://wcsolr05/webapp/wcs/stores/servlet/StaticContent/Recipe.html,5b770798-cd9a-478d-9fb3-b75c1e1c3b91.html,text/html,UTF-8,A,6 
Il est important de définir le chemin relatif de sorte que les environnements de production ne dirigent pas vers le serveur de transfert, mais plutôt vers eux-mêmes.
profondeur
Profondeur d'exploration maximale de l'explorateur. Une valeur de -1 indique qu'il n'y a pas de restrictions de profondeur.
max
Le nombre maximal de pages à explorer. La valeur -1 indique qu'il n'y a pas de valeur maximale.
delay
Le délai en millisecondes entre chaque requête HTTP.
filtres
L'emplacement du fichier de configuration du filtre hôte.
threadmode
Le mode de l'unité d'exécution de l'explorateur de contenu de site.
0
Mode unité d'exécution unique
1
Mode unités d'exécution multiples
maxthread
Le nombre d'unités d'exécution à créer dans le mode unités d'exécution multiples.
autoIndex
Indique s'il faut activer l'indexation automatique du contenu de site après l'exploration du contenu.
skipDownload
Indique les URL à ne pas ajouter dans le fichier manifest.txt, et donc à ne pas indexer. Par exemple, StaticContentSitemap.jsp :

http://${hostname}/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=${storeId}&langId=${langId}&catalogId=${catalogId}
jndiName
Nom jndi de la source de données JDBC, par exemple <jndiName>jdbc/jndiName</jndiName>. Elle n'est utilisée que lorsque vous exécutez l'explorateur via l'URL. Lorsque ce paramètre est spécifié, l'explorateur peut utiliser cette source de données pour mettre à jour la base de données après la fin de l'exécution de l'explorateur.
filters.txt
Le fichier de configuration des filtres détermine si les URL sont incluses ou ignorées par l'explorateur de contenu de site.
Vous pouvez mettre à jour le fichier de configuration des filtres à l'aide d'expressions régulières pour inclure ou ignorer les valeurs.
Important : Vous devez mettre à jour le fichier de configuration des filtres pour inclure votre nom d'hôte HCL Commerce.
Les valeurs d'exemple par défaut contiennent des valeurs ignorées, telles que l'exclusion d'URL contenant des e-mails ou des liens FTP, ou des pages qui nécessitent une connexion au site.
SiteMap.jsp
Le plan de site, qui est utilisé par les navigateurs Web et les moteurs de recherche externes, contient des pointeurs vers les différentes pages de magasin type.
StaticContentSitemap.jsp
Le plan de site statique contient des pointeurs vers les fichiers de contenu statique qui se trouvent dans la base de données HCL Commerce.
L'URL qui est transmise du fichier de configuration vers l'explorateur de contenu de site est la suivante :
http://host_name/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=storeId&langId=-1&catalogId=catalogId
Vous devez mettre à jour le fichier de plan de site statique pour inclure vos fichiers de contenu statique supplémentaires qui se trouvent dans la base de données HCL Commerce.

Ce fichier est utilisé uniquement par l'explorateur de contenu de site.

Fichiers manifeste de l'explorateur de contenu de site
Les fichiers de sortie de l'explorateur de contenu de site manifest.txt sont des documents formatés de valeurs séparées par des virgules (CSV) qui contiennent les informations générées. Vous pouvez trouver les fichiers dans le répertoire searchServerPath\resources\search\index\crawler\cache\date\number, où :
date
Est la date d'exécution de l'utilitaire d'exploration.
number
Désigne le nombre d'exécutions de l'explorateur, en commençant par 1.
  1. Le fichier manifeste qui indique quel dossier contient les fichiers de contenu de site téléchargés. Il contient les colonnes suivantes :
    Horodatage
    L'horodatage de la colonne.
    Chemin de répertoire
    Le chemin d'accès du répertoire de compteurs.
    Emplacement des URL initiales
    Les URL initiales sont séparées par une virgule.
  2. Le fichier manifeste qui contient les mappages des fichiers téléchargés aux URL. Il contient les colonnes suivantes :
    ID
    L'ID qui distingue chaque fichier dans le document. Par exemple, une séquence simple.
    URL
    L'URL relative au magasin actuel ou l'URL complète pointant vers des ressources externes.
    Chemin d'accès au fichier local
    Le chemin d'accès du fichier, au format complet ou relatif, du contenu de site stocké.
    Type de contenu
    Le type de contenu du fichier, par exemple, text/html.
    Codage
    Le codage du fichier, s'il s'agit d'un fichier basé sur du texte.