Conseils et astuces pour les balayages de recherche dans le portail

Consultez des astuces utiles sur les balayages effectués par la fonction de recherche dans le portail. Par exemple, le balayage peut nécessiter de la mémoire étendue et du temps, en fonction de l'environnement et de la configuration de votre recherche de portail.

Le moteur de balayage HTTP ne prend pas en charge JavaScript

Le moteur de balayage HTTP de la fonction de recherche de portail ne prend pas en charge JavaScript. C'est pourquoi, il est possible que certaines parties de documents Web ne puissent pas être explorées par les utilisateurs. L'accessibilité dépend de la façon dont le texte est préparé pour être présenté dans le navigateur. Il est notamment possible que le texte généré par JavaScript ne soit pas disponible pour la recherche.

Affichage d'un message lors du premier balayage d'un portail

Lors du tout premier balayage d'un site de portail, le message suivant peut apparaître :
     EJPJP0009E: Wrong root url for Portal site crawler: https://root_url
Vous pouvez ignorer ce message. Le balayage s'exécute correctement.

Pour résoudre l'incident, éditez la source du contenu, sélectionnez l'onglet Paramètres généraux, puis définissez le paramètre Interrompre l'extraction de documents après (en secondes) sur 90 secondes.

Mémoire requise pour les balayages

Selon votre environnement Recherche de portail, le balayage peut nécessiter des quantités importantes de mémoire. Pour cette raison, assurez-vous qu'HCL dispose de suffisamment de mémoire avant de lancer un balayage. Un manque de mémoire peut endommager une collection de recherche et éventuellement geler le système.

Pour résoudre ce problème, augmentez le nombre maximum de fichiers pouvant être ouverts en utilisant la commande ulimit comme administrateur racine.

En raison des ressources nécessaires au balayage et à l'indexation, il est recommandé de planifier les balayages lorsque l'activité de l'utilisateur est relativement faible.

Délai requis pour les importations et balayages, ainsi que pour la disponibilité des documents

Les tâches de gestion de recherche suivantes peuvent nécessiter des durées importantes :

  • Balayage d'une source de contenu. Au cours du balayage, il se peut que les documents ne soient pas immédiatement disponibles pour l'exploration ou la navigation.
  • Indexation des documents extraits lors du balayage. Une fois le balayage effectué et tous les documents collectés, la création de l'index prend un certain temps.
  • Importation d'une collection de documents. Lors de l'importation de données dans une collection, l'affichage des sources de contenu dans la zone Collection peut demander un certain temps, tout comme la mise à disposition des documents de la collection importée pour un balayage.

Ces tâches sont insérées dans une file d'attente. Par conséquent, il peut s'écouler plusieurs minutes avant leur exécution et le démarrage du compteur horaire. Par exemple, le balayage Exécution et le délai d'attente pour le balayage défini avec l'option Arrêt de la collecte après (min). . La durée requise pour ces tâches dépend également des facteurs suivants :

  • Le nombre de documents dans la source de contenu explorée
  • La taille des documents dans la source de contenu explorée
  • La vitesse et la disponibilité de vos processeurs, systèmes de stockage sur disques durs et connexion réseau.
  • La valeur sélectionnée dans le menu déroulant Interrompre la collecte après (minutes) : lors de la création ou de la modification de la source de contenu.

Ainsi, les délais que vous pouvez spécifier et les délais affichés pour ces processus fonctionnent comme des délais approximatifs. Cela s'applique, par exemple, aux scénarios suivants :

  • Lorsque vous lancez un balayage en sélectionnant une source de contenu dans la zone Sources de contenu dans la collection et en cliquant sur Démarrage de la collecte.
  • Lorsque vous importez une collection de documents et que vous lancez un balayage sur la collection de documents importée.
  • Lorsque l'installation est terminée et que vous initialisez la collection du site de portail préconfigurée en sélectionnant la source de contenu du site de portail et en cliquant sur Démarrage de la collecte.
  • L'heure indiquée sous Dernière mise à jour terminée dans les informations d'état de la collection est postérieure à l'heure que vous aviez prévue. Ce décalage correspond au temps supplémentaire requis pour la création de l'index.

De plus, ces limites de temps ont une influence sur d'autres indicateurs d'état du portlet Gestion de la recherche. Par exemple, le nombre de documents affichés pour une source de contenu peut être étonnamment bas, voire même égal à zéro jusqu'à ce que le balayage de cette source de contenu soit terminé.

Actualisation de différents types de sources de contenu

Lorsque vous cliquez sur Démarrer le moteur de balayage, le contenu de la source de contenu est mis à jour via une nouvelle exécution du moteur de balayage. Lors du balayage, l'icône devient Arrêter le moteur de balayage. Vous pouvez cliquer dessus pour arrêter l'exécution. Recherche de portail régénère les différentes sources de contenu comme suit :
  • Pour des sources de contenu de site Web, les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais qui n'existent plus sont conservés dans la collection de recherche. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
  • Pour des sites HCL Portal, le balayage ajoute toutes les pages et tous les portlets à la source de contenu. Il supprime de la source de contenu les portlets et les pages statiques qui ont été supprimés du portail. Le balayage fonctionne de la même manière que l'option Regrouper les documents de la source de contenu.
  • Pour les sites HCL Web Content Manager, la recherche dans le portail utilise une méthode de balayage incrémentiel. Outre le contenu ajouté et mis à jour, la liste de départ indique explicitement le contenu supprimé. Par contre, la sélection de l'option Regrouper les documents de la source de contenu démarre un balayage complet. Cette option ne continue pas le balayage de la dernière session et n'est donc pas incrémentielle.
  • Pour les sources de contenu créées à l'aide de l'option de producteur de liste de départ, un balayage sur un système distant prenant en charge le balayage incrémentiel, tel qu'HCL Connections, se comporte comme un balayage sur un site Web Content Manager.

Définition d'un ID utilisateur de moteur de balayage dédié

Il peut s'avérer judicieux de définir un ID utilisateur de moteur de balayage dédié. The pre-configured default portal site search uses the default administrator user ID wpsadmin with the default password of that user ID for the crawler. Si vous avez modifié l'ID utilisateur de l'administrateur par défaut lors de l'installation du portail, le moteur de balayage utilise cet ID utilisateur par défaut. Si vous avez apporté des modifications à l'ID utilisateur ou au mot de passe pour l'ID administrateur et que vous souhaitez continuer à utiliser le moteur de balayage du portail de recherche, vous devez adapter les paramètres.

Pour définir un ID utilisateur de moteur de balayage, sélectionnez l'onglet Sécurité et mettez à jour l'ID utilisateur et le mot de passe. Cliquez sur Sauvegarder.

Modification de la portée de la source

Si vous modifiez une source de contenu incluse dans la portée d'une recherche, vous devez mettre cette portée à jour manuellement pour vous assurer que la source de contenu est toujours prise en compte. Si vous avez changé le nom de la source de contenu, éditez la portée et vérifiez que la source de contenu y est toujours répertoriée. Si tel n'est pas le cas, vous devez l'ajouter de nouveau.