Configuration de l'explorateur de contenu de site
L'explorateur de contenu de site utilise des fichiers de configuration et des fichiers de manifeste pour déterminer le comportement de l'explorateur de contenu de site.
Vous pouvez lancer l'explorateur de contenu de site en accédant à l'URL suivante :
http://searchHost:port/search/admin/resources/crawler?action=start&langId=langId&storeId=storeId&catalogId=catalogId- langId
- Identificateur numérique interne qui représente la langue, par exemple, -1 pour l'anglais.
- storeId
- Identificateur numérique interne qui représente le magasin, par exemple, 10001.
- catalogId
- Identificateur numérique interne qui représente le catalogue, par exemple, 10001.
Les deux variables suivantes sont automatiquement remplies par le moteur d'exécution : hostname et portnum, qui seront respectivement le nom d'hôte du serveur de magasin et son numéro de port.
L'explorateur de contenu de site s'appuie sur les fichiers de configuration d'entrée suivants, qui se trouvent dans ce répertoire Liberty/usr/servers/searchServer/resources\search\index\crawler\ext\ :
- droidConfig.xml
- Le fichier de configuration de l'explorateur de contenu de site contient des variables et des paramètres qui déterminent le comportement de l'explorateur de contenu de site. Les variables spécifiées dans le fichier de configuration de l'explorateur de contenu de site sont ensuite utilisées pour remplir davantage les valeurs dans le fichier de configuration.
Paramètres - initialLocations
- L'URL de départ de l'explorateur de contenu de site.Important : Vous devez mettre à jour l'URL de départ de l'explorateur de contenu de site pour qu'il fonctionne correctement.Par exemple :
https://${hostname}:${portnum}/shop/StaticContentSitemap?storeId=1&langId=-1&catalogId=10502 - relativePath
- S'il est spécifié, le chemin relatif est omis des URL ajoutées dans le fichier manifeste. Par exemple :
4,StaticContent/Recipe.html,8fa661c4-f812-4b3c-aa5c-361894120d23.html,text/html,UTF-8,A,3 - profondeur
- Profondeur d'exploration maximale de l'explorateur. Une valeur de -1 indique qu'il n'y a pas de restrictions de profondeur.
- max
- Le nombre maximal de pages à explorer. La valeur -1 indique qu'il n'y a pas de valeur maximale.
- delay
- Le délai en millisecondes entre chaque requête HTTP.
- filtres
- L'emplacement du fichier de configuration du filtre hôte.
- threadmode
- Le mode de l'unité d'exécution de l'explorateur de contenu de site.
- 0
- Mode unité d'exécution unique
- 1
- Mode unités d'exécution multiples
- maxthread
- Le nombre d'unités d'exécution à créer dans le mode unités d'exécution multiples.
- autoIndex
- Indique s'il faut activer l'indexation automatique du contenu de site après l'exploration du contenu.
- skipDownload
- Indique les URL à ne pas ajouter dans le fichier manifest.txt, et donc à ne pas indexer. Par exemple, StaticContentSitemap.jsp :
http://${hostname}/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=${storeId}&langId=${langId}&catalogId=${catalogId} - jndiName
- Nom jndi de la source de données JDBC, par exemple
<jndiName>jdbc/jndiName</jndiName>. Elle n'est utilisée que lorsque vous exécutez l'explorateur via l'URL. Lorsque ce paramètre est spécifié, l'explorateur peut utiliser cette source de données pour mettre à jour la base de données après la fin de l'exécution de l'explorateur.
- filters.txt
- Le fichier de configuration des filtres détermine si les URL sont incluses ou ignorées par l'explorateur de contenu de site.
- SiteMap.jsp
- Le plan de site, qui est utilisé par les navigateurs Web et les moteurs de recherche externes, contient des pointeurs vers les différentes pages de magasin type.
- StaticContentSitemap.jsp
- Le plan de site statique contient des pointeurs vers les fichiers de contenu statique qui se trouvent dans la base de données HCL Commerce.L'URL qui est transmise du fichier de configuration vers l'explorateur de contenu de site est la suivante :
Vous devez mettre à jour le fichier de plan de site statique pour inclure vos fichiers de contenu statique supplémentaires qui se trouvent dans la base de données HCL Commerce.http://host_name/webapp/wcs/stores/servlet/StaticContentSitemap?storeId=storeId&langId=-1&catalogId=catalogIdCe fichier est utilisé uniquement par l'explorateur de contenu de site.
- Fichiers manifeste de l'explorateur de contenu de site
-
Les fichiers de sortie de l'explorateur de contenu de site manifest.txt sont des documents formatés de valeurs séparées par des virgules (CSV) qui contiennent les informations générées. Vous pouvez trouver les fichiers dans le répertoire searchServerPath\resources\search\index\crawler\cache\date\number, où :
- date
- Est la date d'exécution de l'utilitaire d'exploration.
- number
- Désigne le nombre d'exécutions de l'explorateur, en commençant par 1.
- Le fichier manifeste qui indique quel dossier contient les fichiers de contenu de site téléchargés. Il contient les colonnes suivantes :
- Horodatage
- L'horodatage de la colonne.
- Chemin de répertoire
- Le chemin d'accès du répertoire de compteurs.
- Emplacement des URL initiales
- Les URL initiales sont séparées par une virgule.
- Le fichier manifeste qui contient les mappages des fichiers téléchargés aux URL. Il contient les colonnes suivantes :
- ID
- L'ID qui distingue chaque fichier dans le document. Par exemple, une séquence simple.
- URL
- L'URL relative au magasin actuel ou l'URL complète pointant vers des ressources externes.
- Chemin d'accès au fichier local
- Le chemin d'accès du fichier, au format complet ou relatif, du contenu de site stocké.
- Type de contenu
- Le type de contenu du fichier, par exemple,
text/html. - Codage
- Le codage du fichier, s'il s'agit d'un fichier basé sur du texte.