Gérer les sources de contenu d'une collection de recherche

Pour travailler sur les sources de contenu d'une collection de recherche, cliquez sur le nom de la collection dans la liste des collections de recherche. Manage Search lists the Content Sources and the Search collection status information of the selected search collection. Une collection de recherche peut être configurée pour couvrir plusieurs sources de contenu. A partir de la fenêtre Sources de contenu, vous pouvez actualiser, afficher le statut et configurer les planificateurs et les moteurs de balayage pour une source de contenu spécifique.

Si un balayage de la source de contenu est en cours, l'actualisation des informations de statut a pour effet de mettre à jour les données relatives à la durée d'exécution de cette opération ainsi que la liste des documents collectés jusque-là. Vous pouvez également afficher le statut de la source de contenu, par exemple, le nombre de documents, l'exécution du dernier moteur de balayage et les planifications de l'exécution.

Vous pouvez afficher le statut des planificateurs et configurer les moteurs de balayage pour une source de contenu spécifique. L'icône Afficher les planificateurs de source de contenu s'affiche uniquement si vous avez planifié des balayages pour cette source de contenu. Lorsque vous cliquez sur cette icône, le portlet répertorie les balayages planifiés. Il fournit également des informations sur la date et l'heure de début, l'intervalle de répétition, la date et l'heure de la prochaine exécution et le statut. Les informations de statut peuvent être désactivées ou activées.

Cliquez sur l'option permettant de démarrer un balayage sur la source de contenu pour mettre à jour le contenu de cette dernière. Une fois l'exécution démarrée, l'icône Démarrer le moteur de balayage devient Arrêter le moteur de balayage et vous pouvez cliquer pour arrêter l'exécution. Une exécution de balayage actualise différentes sources de contenu comme suit :
  • Pour des sources de contenu de site Web, les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais qui n'existent plus sont conservés dans la collection de recherche. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
  • Pour des sites HCL, le balayage ajoute toutes les pages et tous les portlets à la source de contenu. Il supprime de la source de contenu les portlets et les pages statiques qui ont été supprimés du portail. Le balayage fonctionne de la même manière que l'option Regrouper les documents de la source de contenu.
  • Pour les sites HCL Web Content Manager, la recherche dans le portail utilise une méthode de balayage incrémentiel. Outre le contenu ajouté et mis à jour, la liste de départ indique explicitement le contenu qui a été supprimé. In contrast, clicking Regather documents from Content Source starts a full crawl; it does not continue from the last session, and it is therefore not incremental.
  • For content sources created with the seedlist provider option, a crawl on a remote system that supports incremental crawling, such as HCL Connections, behaves like a crawl on a Web Content Manager site.
Remarque : Définissez un ID utilisateur de moteur de balayage dédié. La recherche de site de portail par défaut préconfigurée utilise l'ID administrateur par défaut sysadmin avec le mot de passe par défaut de cet ID utilisateur pour le moteur de balayage. Si vous avez modifié l'ID utilisateur de l'administrateur par défaut lors de l'installation du portail, le moteur de balayage utilise cet ID utilisateur par défaut. Si vous avez apporté des modifications à l'ID utilisateur ou au mot de passe pour l'ID administrateur et que vous souhaitez continuer à utiliser le moteur de balayage du portail de recherche, vous devez adapter les paramètres. Pour définir un ID utilisateur de moteur de balayage, sélectionnez l'onglet Sécurité et mettez à jour l'ID utilisateur et le mot de passe. Cliquez sur Sauvegarder.
Supprimez de la source de contenu les documents issus de balayages précédents, puis démarrez un balayage complet de la source de contenu en cliquant sur l'icône Regrouper les documents de la source de contenu. Les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais n'existent plus dans la source de contenu sont supprimés de la collection. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
Remarque : Cette action peut nécessiter une grande quantité de ressources système, car toutes les sources de contenu de la collection sont balayées en même temps.
Remarque :
  • Si vous modifiez une source de contenu incluse dans la portée d'une recherche, vous devez mettre cette portée à jour manuellement pour vous assurer que la source de contenu est toujours prise en compte. En particulier, si vous avez changé le nom de la source de contenu, éditez la portée et vérifiez que la source y est toujours répertoriée. Si tel n'est pas le cas, ajoutez-la à nouveau.
  • Si vous supprimez une source de contenu, les documents qui ont été collectés restent disponibles pour les recherches des utilisateurs dans l'option Toutes les portées. puisque les documents ont été inclus dans la source de contenu avant sa suppression. Ces documents restent disponibles jusqu'à ce qu'ils arrivent à expiration. Dans l'onglet Paramètres généraux, vous pouvez spécifier le délai d'expiration à partir du menu Les liens expirent après (jours).
To verify the URL address of a content source, locate the content source and click the Verify Address icon. If the web content source is available and not blocked by a robots.text file, Manage Search returns the message
source de contenu est OK
. Si la source de contenu n'est pas valide, si elle inaccessible ou bloquée, le portlet Gestion des recherches renvoie un message d'erreur. When you create a new content source, Manage Search starts the Verify Address feature.