Gestion de la recherche

Le portlet Gestion de la recherche permet d'administrer la recherche du portail.

Pour gérer la recherche dans le portail, cliquez sur l'icône Menu d'administration dans la barre d'outils. Cliquez ensuite sur Interface utilisateur du portail > Gérer la recherche dans le menu du portail. Le portail affiche le portlet d'administration Gérer la recherche.

Remarque : Ce portlet fournit uniquement les instructions d'utilisation du portlet Gérer la recherche. Pour plus d'informations sur les services de recherche, les collections et les portées, ainsi que sur la planification et la configuration des recherches, voir la section sur le service de recherche de portail dans la documentation du produit.

Services de recherche

Le portlet Services de recherche vous permet de visualiser et gérer les services de recherche d'HCL Digital Experience. Ils représentent des instances distinctes du moteur de recherche fourni et peuvent être utilisés pour rechercher du contenu à l'aide du centre de recherche. Lorsque vous créez une collection de recherche, vous devez sélectionner un service de recherche pour permettre aux utilisateurs de demander des recherches sur cette collection. Un même service de recherche peut être utilisé pour les recherches dans plusieurs collections. Vous pouvez définir des paramètres afin de configurer un service de recherche qui configure des instances distinctes de services de recherche avec différentes configurations. Vous pouvez également configurer plusieurs services de recherche dans le portail et répartir sur plusieurs noeuds la charge de travail associée aux recherches. Le service de recherche suivant est fourni par défaut :
Service de recherche du portail
Sélectionnez ce service pour gérer des collections de recherche composées de pages de portail, de contenus gérés par HCL Web Content Manager ou de pages Web indexées. Dans un environnement en cluster, vous devez configurer un service de recherche distant.
Remarque : Le moteur de balayage HTTP de la fonction de recherche de portail ne prend pas en charge JavaScript. Il est donc possible que les textes générés par du code JavaScript ne soient pas disponibles pour la recherche.

Vous pouvez également créer d'autres services de recherche personnalisés et les ajouter à votre portail.

Création d'un service de recherche
Pour créer un nouveau service de recherche, cliquez sur Nouveau service de recherche. Le portlet Gérer la recherche affiche la page Nouveau service de recherche. Spécifiez un nom de service unique dans le portail en cours ou le portail virtuel.

Collections de recherche

Le portlet Collections de recherche vous permet de visualiser et gérer les collections de recherche et leurs sources de contenu dans le portail. Vous pouvez construire et tenir à jour des collections de recherche de contenu Web, de contenu Web Content Manager, de contenu de portail, ainsi que les collections de recherche connexes. Les utilisateurs pourront dès lors effectuer des recherches dans ces collections à l'aide du Centre de recherche du portail.

Une collection de recherche peut avoir une ou plusieurs sources de contenu, telles que des pages Web, un contenu Web Content Manager ou des pages de portlet et des portlets. La collection de recherche par défaut du portail combine deux sources de contenu et leurs moteurs de balayage associés :

Source de contenu de portail
La source de contenu du portail contient le site de portail local, sur lequel les utilisateurs peuvent rechercher des portlets et des pages de portail.
Source du contenu de Web Content Manager
La source de contenu Web Content Manager permet aux utilisateurs de rechercher du contenu Web.

Lors du processus de génération de la collection de recherche, les contenus sont extraits de leurs sources respectives par un moteur de balayage (ou robot) pour leur indexation. La collection de recherche stocke des mots clés et des métadonnées et les mappe à leur source d'origine. Elle permet un traitement rapide des requêtes lancées à partir du portlet Centre de recherche.

Les ressources peuvent être stockées sur le serveur de portail local ou sur des sources de contenu distantes afin d'y être recherchées. Le contenu peut être traité par des moteurs de balayage, s'il est accessible via le protocole HTTP. Par exemple, il peut s'agir de contenu provenant de pages de portail, de Web Content Manager et de documents hébergés par des serveurs Web. Les documents peuvent être de différents types, par exemple des fichiers texte éditables, des documents de suites Office telles que celle de Microsoft ou OpenOffice, ou encore des fichiers PDF.

Gestion des collections de recherche

Sur le panneau Collections de recherche, sélectionnez les options ou les icônes suivantes pour exécuter les tâches suivantes sur les collections de recherche :
  • Sélectionnez Actualiser pour mettre à jour les informations et les icônes d'option disponibles pour les collections. Exemples :
    • Si un balayage est en cours d'exécution ou s'est terminé, le nombre de documents est mis à jour.
    • Si un balayage a été exécuté sur une collection depuis la dernière actualisation, de nouvelles icônes d'option peuvent apparaître. Par exemple, Rechercher et parcourir la collection.
    • Si les collections de recherche ont été mises à jour par un autre administrateur, les informations sont actualisées.
  • Sur la page Collections de recherche, vous pouvez importer et exporter des collections de recherche. Vous pouvez également afficher le statut de la collection de recherche et gérer les sources de contenu en cliquant sur le nom de celle-ci.
    Remarque : Les icônes de certaines tâches ne sont disponibles que si l'utilisateur actuel est autorisé à effectuer ces tâches sur la collection de recherche.

Création d'un collection de recherche

Certaines des zones de saisie et options suivantes sont disponibles lorsque vous créez une collection de recherche :

Remarque : Les paramètres que vous sélectionnez lors de la création de la collection de recherche ne peuvent plus être modifiés ultérieurement. De ce fait, il est conseillé de planifier toute nouvelle création d'une collection de recherche. Si vous souhaitez modifier les paramètres, vous devez tout recommencer et créer une nouvelle collection avec des nouveaux paramètres. Vous pourrez ensuite exporter les données de l'ancienne collection et les importer dans la nouvelle. Pour plus d'informations, voir Exportation d'une collection de recherche et Importation d'une collection de recherche.
Emplacement de la collection
Utilisez cette zone pour entrer le chemin du répertoire dans lequel créer la collection de recherche et enregistrer ses données. Vous pouvez entrer un chemin d'accès complet ou un chemin d'accès relatif au répertoire indiqué par le paramètre Collections Locations du service de recherche. La collection de recherche est créée à l'emplacement suivant :
  • Si vous entrez un nom de votre choix, l'emplacement de la nouvelle collection de recherche est dérivé du répertoire par défaut et du nom. Exemple : If you type my_collection_location, the new search collection is created under the directory wp_root/collections/my_collection_location. Pour plus d'informations sur le répertoire par défaut pour les collections de recherche et la manière de le configurer, voir la rubrique Configuration de l'emplacement par défaut d'une collection de recherche dans la documentation produit sous Recherche dans le portail.
  • Si vous tapez le chemin de répertoire complet, l'emplacement de la nouvelle collection de recherche est différent de l'emplacement de collection de recherche par défaut. La nouvelle collection de recherche est créée sous l'emplacement de répertoire que vous spécifiez.
Nom de la collection
Utilisez cette zone pour entrer le nom de la nouvelle collection de recherche. Si vous n'indiquez pas de nom, l'emplacement entré dans la zone précédente est utilisé pour la collection de recherche.
Spécifiez la langue de la collection
Ce menu permet de sélectionner une langue pour la collection de recherche. La collection de recherche et son index sont optimisés pour la langue. Cette fonction permet d'améliorer la qualité des résultats de recherche car elle permet d'utiliser des variantes orthographiques (pluriels et autres flexions grammaticales) des mots-clés à rechercher. La recherche utilise cette langue pour l'indexation, si aucune langue n'est définie pour le document. Sélectionnez l'une des options Non spécifié pour indexer les documents sans utiliser les radicaux des mots.
Remarque : Ce paramètre n'est pas remplacé lors de l'importation d'une collection de recherche, par exemple lors de la migration de cette dernière. Si vous créez la collection de recherche pour migrer une collection existante, votre sélection doit correspondre à la collection source.
Sélectionnez le programme de résumé
Ce menu permet de sélectionner un programme de résumé pour la collection de recherche. Sélectionnez l'une des options suivantes :
  • Choose None if no summary is generated. Si vous choisissez cette option, le centre de recherche utilise les métadonnées de description du document, si celui-ci en comporte.
  • Choose Automatic if an automatic summarizer is generated.

Affichage de l'état d'une collection de recherche

Pour voir le statut d'une collection de recherche, cliquez sur son nom dans la liste des collections de recherche. Le portlet Gérer la recherche affiche les zones Nom de source de contenu et Informations de statut de collection de recherche de la collection de recherche sélectionnée. Les zones de statut indiquent les modifications apportées à la collection de recherche pendant sa durée de vie. Les données suivantes sont notamment affichées :
Dernière mise à jour exécutée :
Indique la date à laquelle une source de contenu a été mise à jour pour la dernière fois lors d'un balayage planifié, et indexée.
Remarque : Le délai que vous pouvez spécifier via le paramètre Arrêt de la collecte après (minutes) : est une approximation. Il peut être dépassé d'un certain pourcentage, car l'indexation des documents après le balayage demande du temps supplémentaire.

Si votre portail comporte une collection de recherche défectueuse, le portlet affiche un lien permettant d'accéder à celle-ci.

Migration des collections de recherche

Lorsque vous passez à une nouvelle version d'HCL, rien ne garantit que son format de stockage des données soit compatible avec celui de l'ancienne version. Pour éviter de perdre des données, exportez toutes les données des collections de recherche au format XML avant de procéder à la mise à niveau. Après quoi, vous pourrez créer une collection de recherche et utiliser les données exportées antérieurement pour importer les données de la collection de recherche dans la version mise à niveau de votre portail.

  1. Si vous omettez ces étapes, vos collections de recherche seront perdues après la mise à niveau.
  2. Lorsque vous créez la collection de recherche sur le portail mis à niveau, entrez les données et procédez comme suit :
    • Entrez l'emplacement, le nom et la description de la nouvelle collection. Vous pouvez réutiliser les anciens paramètres ou en spécifier des nouveaux.
    • Vous n'avez pas besoin de sélectionner un programme de résumé. Ces paramètres sont écrasés lorsque vous importez les données à partir de la collection de recherche source.
  3. Vous ne pouvez pas migrer une collection de sites de portail entre différentes versions d'HCL. Si vous effectuez une mise à niveau vers une autre version, vous devez recréer la collection de sites de portail. Procédez comme suit :
    1. Documentez les données de configuration de votre source de contenus du site de portail.
    2. Supprimez la source de contenu existante.
    3. Mettez à niveau votre portail.
    4. Sur le portail mis à niveau, créez une nouvelle source de contenu du site de portail. Utilisez les données de configuration documentées.
    5. Exécutez la nouvelle source de contenu du portail.

Les portlets explorés avant la mise à niveau, mais qui n'existent pas dans la portail mis à niveau, ne sont pas renvoyés lors d'une recherche.

Pour plus d'informations concernant ces tâches, consultez les rubriques traitant de la migration, de l'importation et de l'exportation de collections de recherche dans le centre de documentation.

Pour plus d'informations sur l'exportation et l'importation de ces collections, voir Exportation d'une collection de recherche et Importation d'une collection de recherche.

Exportation d'une collection de recherche

Pour exporter une collection de recherche et ses données, procédez comme suit :
  1. Avant d'exporter une collection, assurez-vous que l'utilisateur qui exécute le processus d'application de portail dispose d'un droit d'accès en écriture sur l'emplacement du répertoire cible. Otherwise, you might get an error message, such as File not found.
  2. Assurez-vous que le répertoire cible est vide ou qu'il ne contient aucun fichier dont vous pourriez avoir besoin, car l'exportation peut écraser les fichiers de ce répertoire.
  3. Localisez la collection de recherche que vous désirez exporter.
  4. Dans la liste, cliquez sur Importer ou exporter une collection, à côté de la collection de recherche. Le portlet Gérer la recherche affiche l'écran d'importation/exportation des collections de recherche.
  5. Dans la zone de saisie Indiquez l'emplacement (chemin d'accès absolu avec l'extension XML), saisissez le chemin complet et le nom du fichier XML dans lequel vous souhaitez exporter la collection de recherche et ses données. Indiquez le nom de la collection ainsi que le répertoire et le nom du fichier cible qui servira à la réimportation ultérieure de la collection.
    Remarque : Lorsque vous spécifiez l'emplacement du répertoire cible pour l'exportation, sachez que les fichiers placés à cet endroit pourront être écrasés lors de l'exportation.
  6. Cliquez sur Exporter pour exporter les données de la collection de recherche. Le portlet Gestion des recherches écrit l'ensemble des données de la collection de recherche dans un fichier XML et le stocke à l'emplacement que vous avez indiqué. Vous pourrez utiliser ce fichier ultérieurement comme source d'importation de la collection de recherche dans un autre portail.
  7. Pour retourner au panneau précédent sans exporter la collection de recherche, cliquez sur le lien approprié du trajet de navigation (fil d'Ariane).

Importation d'une collection de recherche

Pour importer les données d'une collection de recherche, procédez comme suit :
  1. Avant d'importer les données d'une collection, vous devez créer leur conteneur, Vous pouvez créer l'interpréteur de commandes vide en créant une collection de recherche. Seule la zone obligatoire Emplacement de la collection est à renseigner. Vous n'avez pas à ajouter de sources de contenu ni de documents, car ils sont fournis par les données importées.
  2. Dans la liste des collections de recherche, sélectionnez celle dans laquelle vous souhaitez importer les données.
  3. Dans la liste, cliquez sur Importer ou exporter, à côté de la collection de recherche. Manage Search displays the Import and Export Search Collection panel.
  4. Dans la zone de saisie Indiquez l'emplacement (chemin d'accès absolu avec l'extension XML) :, entrez le chemin complet du répertoire et le nom du fichier XML des données de la collection de recherche à importer dans la collection de recherche sélectionnée.
  5. Cliquez sur Importer pour importer l'ensemble des données de la collection de recherche à partir du fichier XML indiqué dans la collection de recherche sélectionnée.
  6. Pour retourner au panneau précédent sans importer de collection de recherche, cliquez sur le lien approprié du trajet de navigation (fil d'Ariane).
  7. Au besoin, vous pouvez maintenant compléter la collection de recherche par d'autres sources de contenu et documents.
Remarque : Lorsque vous importez une collection, gardez à l'esprit les informations suivantes :
  1. Importez les données de collection uniquement dans une collection vide. N'importez pas de données de collection dans une collection cible qui contient des sources de contenu ou des documents.
  2. Lorsque vous importez des données de collection dans une collection, tous les paramètres sont remplacés par ceux de la collection importée. Par exemple, le paramètre de langue est remplacé ou un regroupeur est ajouté, s'il a été spécifié pour la collection de recherche importée.
  3. Lorsque vous importez une collection, un processus d'arrière-plan extrait, balaie et indexe tous les documents listés par URL dans le fichier précédemment exporté. Ce processus s'effectue en mode asynchrone et il peut s'écouler un certain temps avant que les documents ne deviennent disponibles.
  4. Lorsque vous importez une collection contenant une source de contenu de site de portail créée dans une précédente version, vous devez exécuter les actions suivantes :
    • Procéder à une nouvelle collecte du contenu en supprimant la source de contenu de site existante
    • Créer une source de contenu de site
    • Démarrer un balayage

Régénération des données de collection

L'actualisation (ou régénération) des données d'une collection de recherche se fait en relançant un balayage de toutes les sources de contenu qui lui sont associées. Pour actualiser une collection de recherche, cliquez sur Regrouper les documents de la source de contenu. Le portlet Gestion des recherches effectue un nouveau balayage complet de toutes les sources de contenu associées à la collection. Pour savoir où en est la régénération, cliquez sur la collection et consultez les informations de la section Etat de la collection.
Remarque : Cette action peut nécessiter une grande quantité de ressources système, car toutes les sources de contenu de la collection sont balayées en même temps.

Suppression d'une collection de recherche

Remarque : Si vous supprimez la collection de recherche avant de passer à une version ultérieure d'HCL, prenez soin de l'exporter auparavant afin de pouvoir la réimporter ensuite. Pour plus d'informations, voir Migration de collections de recherche.

Gestion des sources du contenu d'une collection de documents

Pour travailler sur les sources de contenu d'une collection de recherche, cliquez sur le nom de la collection dans la liste des collections de recherche. Le portlet Gérer la recherche affiche les données Sources de contenu et Etat de la collection de recherche de la collection de recherche sélectionnée. Une collection de recherche peut être configurée pour couvrir plusieurs sources de contenu.

A partir du panneau Sources de contenu, vous pouvez exécuter les tâches suivantes :
  • Cliquer sur Actualisation pour actualiser les informations d'état. Si un balayage de la source de contenu est en cours, cette option a pour effet de mettre à jour les données relatives à la durée d'exécution de cette opération ainsi que la liste des documents collectés jusque-là.
  • Afficher les informations d'état de la source de contenu :
    Documents
    Nombre de documents dans la source de contenu. Si vous cliquez sur Actualiser au cours d'un balayage, cette action indique le nombre de documents collectés jusque-là par le moteur de balayage.
    Durée d'exécution
    Durée d'exécution du dernier moteur de balayage exécuté sur les sources de contenu. Si vous cliquez sur Actualiser au cours d'un balayage, cette action indique le temps qu'a passé le moteur de balayage jusque-là.
    Dernière exécution
    Date et heure de démarrage du dernier balayage de la source de contenu.
    Prochaine exécution
    Date et heure de démarrage de la prochaine exécution de la source de contenu, si elle est planifiée.
    Statut
    Etat de la source de contenu, qui peut indiquer que la source de contenu est inactive ou qu'un balayage est en cours d'exécution.
  • Sélectionnez l'icône d'une source de contenu particulière et effectuez l'une des tâches suivantes :
    • Afficher les planificateurs de source de contenu. Cette icône ne s'affiche que si vous avez défini des balayages planifiés pour cette source de contenu. Si vous cliquez sur cette icône, le portlet répertorie les balayages planifiés, ainsi que les informations suivantes :
      • Date de début
      • Heure de début
      • Intervalle de répétition
      • Date de la prochaine exécution
      • Heure de la prochaine exécution
      • Etat. Une option peut être désactivée ou activée.
    • Démarrer le moteur de balayage. Cliquez sur cette icône pour démarrer un balayage de la source de contenu. Le contenu de la source est alors mis à jour par une nouvelle exécution du moteur de balayage. Lors du balayage, l'icône devient Arrêter le moteur de balayage ; vous pouvez cliquer pour arrêter le balayage. Pour plus d'informations, voir Lancement d'une collecte de documents à partir d'une source de contenu . Recherche de portail régénère les différentes sources de contenu comme suit :
      • Pour des sources de contenu de site Web, les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais qui n'existent plus sont conservés dans la collection de recherche. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
      • Pour des sites HCL Portal, le balayage ajoute toutes les pages et tous les portlets à la source de contenu. Il supprime de la source de contenu les portlets et les pages statiques qui ont été supprimés du portail. Le balayage fonctionne de la même manière que l'option Regrouper les documents de la source de contenu.
      • Pour les sites HCL Web Content Manager, la recherche dans le portail utilise une méthode de balayage incrémentiel. Outre le contenu ajouté et mis à jour, la liste de départ indique explicitement le contenu supprimé. Par contre, la sélection de l'option Regrouper les documents de la source de contenu démarre un balayage complet. Cette option ne continue pas le balayage de la dernière session et n'est donc pas incrémentielle.
      • For content sources created with the seedlist provider option, a crawl on a remote system that supports incremental crawling, such as HCL Connections, behaves like a crawl on a Web Content Manager site.
    • Regrouper les documents de la source de contenu. Cette option supprime de la source de contenu les documents existants issus de balayages précédents. Ensuite, elle démarre un balayage complet de la source de contenu. Les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais n'existent plus dans la source de contenu sont supprimés de la collection. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
    • Notes :
      • Il peut s'avérer judicieux de définir un ID utilisateur de moteur de balayage dédié. The pre-configured default portal site search uses the default administrator user ID wpsadmin with the default password of that user ID for the crawler. Si vous avez modifié l'ID utilisateur de l'administrateur par défaut lors de l'installation du portail, le moteur de balayage utilise cet ID utilisateur par défaut. Si vous avez apporté des modifications à l'ID utilisateur ou au mot de passe pour l'ID administrateur et que vous souhaitez continuer à utiliser le moteur de balayage du portail de recherche, vous devez adapter les paramètres.

        Pour définir un ID utilisateur de moteur de balayage, sélectionnez l'onglet Sécurité et mettez à jour l'ID utilisateur et le mot de passe. Cliquez sur Sauvegarder.

      • Si vous modifiez une source de contenu incluse dans la portée d'une recherche, vous devez mettre cette portée à jour manuellement pour vous assurer que la source de contenu est toujours prise en compte. En particulier, si vous avez changé le nom de la source de contenu, éditez la portée et vérifiez que la source y est toujours répertoriée. Si tel n'est pas le cas, ajoutez-la de nouveau.
      • Si vous supprimez une source de contenu, les documents qui ont été collectés restent disponibles pour les recherches des utilisateurs dans toutes les portées. Toutes les portées incluaient la source de contenu avant sa suppression. Ces documents restent disponibles jusqu'à ce qu'ils arrivent à expiration. Sous Paramètres généraux, vous pouvez spécifier le délai d'expiration à partir du menu Les liens expirent après (jours) :.

Nouvelle source de contenu

Lorsque vous créez une nouvelle source de contenu pour une collection de recherche, elle est analysée et la collection de recherche est complétée par les documents provenant de cette source de contenu. Vous pouvez identifier l'emplacement où l'index recherche et les informations qu'il recherche. Cliquez sur les options du menu Type de source de contenu. Les zones de saisie et les paramètres que vous pouvez spécifier sont les suivants :

Site Web
Sélectionnez cette option pour tous les sites distants qui incluent les sites Web et les sites de portail distants. Seules les pages anonymes peuvent être indexées et faire l'objet d'une recherche sur les sites de portails distants.
Fournisseur de la liste de départ
Sélectionnez cette option si le moteur de balayage utilise la liste d'origine en tant que contenu source pour la collection.
Site de portail
Sélectionnez cette option si la source de contenu est votre site de portail local.
Site de contenu Web géré
Pour mettre une source de contenu de ce type à la disposition de la fonction de recherche du portail, vous devez la créer dans le portlet de création de Web Content Manager. Sélectionnez l'option appropriée pour la rendre disponible pour les recherches et spécifiez la collection de recherche à laquelle elle appartient. Une fois votre site de contenu Web géré terminé, il est intégré à la liste des sources de contenu de la collection de recherche que vous avez spécifiée.
Votre sélection détermine certaines zones de saisie et options disponibles pour créer la source de contenu. Par exemple, l'option Obéir à robots.txt, sous l'onglet Paramètres avancés, est disponible uniquement si vous sélectionnez Site Web comme type de source de contenu.

Définition des paramètres généraux d'une source de contenu

Définissez les paramètres généraux de la source de contenu en renseignant les zones de saisie et en effectuant vos sélections dans la boîte de dialogue Création d'une nouvelle source de contenu. Les zones et les options disponibles varient selon le type de source de contenu que vous sélectionnez :
  • Entrez l'URL Web ou l'URL de portail requise dans la zone Collecter les documents liés à partir de cette URL obligatoire. Cette action détermine l'URL racine à partir de laquelle le moteur de balayage commence le balayage. Pour les sources de contenu de portail, cette zone est automatiquement renseignée par le portlet Gestion des recherches.
    Notes :
    • Pour les sites Web, vous devez entrer le nom complet, y compris http://. Par exemple: http://www.cnn.com. Le fait d'entrer uniquement www.cnn.com génère une erreur.
    • Un problème de réacheminement de l'adresse URL peut provoquer un échec du moteur de recherche. Si ce problème ce produit, essayez de modifier cette zone, par exemple en remplaçant l'URL par l'URL de réacheminement.
  • Effectuez votre sélection parmi les options suivantes répertoriées dans les listes. Les zones et les options disponibles varient selon le type de source de contenu que vous avez sélectionné.
    Niveaux des liens à suivre :
    Pour le balayage des sites Web, cette option permet de déterminer le niveau de profondeur de balayage, c'est-à-dire le nombre maximal de niveaux de liens imbriqués que le moteur de balayage suit à partir de l'URL racine.
    Nombre de documents liés à collecter :
    Pour le balayage des sites Web, cette option permet de déterminer le nombre maximal de documents indexés par le moteur de balayage pendant chaque session. Le nombre de documents indexés comprend les documents réindexés lorsque leur contenu a été modifié.
    Interrompre la collecte après (en minutes) :
    Cette option permet de définir la durée maximale en minutes d'une session de balayage du moteur de balayage pour les sites Web.
    Remarque : Le délai d'attente fonctionne comme un délai approximatif. Elle peut être dépassée d'un certain pourcentage.
    Interrompre l'extraction de documents après (en secondes) :
    Cette option indique la durée pendant laquelle le moteur de balayage tente d'extraire un document. Elle permet de définir le délai maximal en secondes pour terminer la phase initiale de connexion HTTP (réception des en-têtes HTTP). Ce délai doit être déterminé parce qu'il est utilisé pour empêcher le moteur de balayage d'être bloqué indéfiniment par une mauvais connexion. Toutefois, il permet au moteur de balayage de pouvoir extraire de gros fichiers qui mettent longtemps à charger (tels que des fichiers compressés).

Définition des paramètres avancés d'une source de contenu

Lors de la création d'une source de contenu, cliquez sur l'onglet Paramètres avancés et effectuez une sélection parmi les options ou cases à cocher suivantes ou entrez des données comme suit :
Nombre de processus parallèles :
Ce paramètre détermine le nombre d'unités d'exécution utilisées par le moteur de balayage pendant une session.
Jeu de caractères par défaut :
Ce paramètre définit le jeu de caractères par défaut utilisé par le moteur de balayage, s'il ne peut pas définir le jeu de caractères d'un document.
Remarque : La zone d'entrée pour le chiffrement de caractère par défaut contient la valeur par défaut initiale windows-1252, quel que soit le paramètre de langue par défaut du portail sous Menu Administration > Paramètres du portail > Paramètres globaux. Entrez le codage de caractère par défaut requis selon la langue de votre portail. Sinon, les documents risquent de ne pas être affichés correctement dans Parcourir les documents.
Toujours utiliser le jeu de caractères par défaut :
Si vous cochez cette option, le moteur de balayage utilisera toujours le jeu de caractères par défaut, peu importe le jeu de caractères du document. Si vous ne cochez pas cette option, le moteur de balayage essaiera de déterminer le jeu de caractères du document.
Obéir à Robots.txt
Si vous sélectionnez cette option, le moteur de balayage respecte les restrictions indiquées dans le fichier robots.txt lorsqu'il accède aux URL des documents. Cette option est disponible uniquement pour le type de source de contenu de site Web et non pour le site de portail ou le fournisseur de liste de départ.
Serveur proxy :
Si vous laissez la zone de serveur proxy HTTP vide, le moteur de balayage n'utilisera pas de serveur proxy.
Port :
Si vous laissez cette zone vide, le moteur de balayage n'utilisera pas de serveur proxy.

Configuration du planificateur

To configure the schedule, click the Scheduler tab to display the following options:
Définir le planning
Ajoutez un nouveau planning à partir de cette zone.
Mises à jour planifiées
Cette zone indique à quel moment les balayages sont terminés.
Remarque : Ce délai doit être supérieur à la durée maximale d'exécution du moteur de balayage. Un moteur de balayage ne peut pas être démarré s'il est déjà en cours d'exécution. Si un travail de balayage est démarré alors que le moteur de balayage est déjà en cours d'exécution, ce travail est ignoré et ne démarre qu'à la prochaine planification.

Configuration des filtres

Ces filtres contrôlent la progression de l'exploration et le type de documents indexés et catalogués. To configure filters, click the Filters tab. You can define new filters in the Define Filter Rules box. The defined filters are listed in the Filtering Rules box.

Les filtres du moteur de balayage sont de deux types :
Filtres d'URL
Ces filtres déterminent les documents à balayer et à indexer en fonction de l'URL où ils sont trouvés.
Filtres de type
Ces filtres déterminent les documents à balayer et à indexer en fonction de leur type.

Si vous ne définissez pas de filtres, tous les documents d'une source de contenu sont extraits et balayés. If you click Include filters, only those documents that pass the included filters are crawled and indexed. If you click Exclude filters, they override the included filters. Si vous ne définissez aucun filtre d'inclusion, ils limitent le nombre de documents balayés et indexés. Plus précisément, si un document transmet l'un des filtres d'inclusion mais aussi l'un des filtres d'exclusion, il n'est pas balayé, indexé ni catalogué.

Vous pouvez effectuer les tâches suivantes dans la boîte de dialogue Filtres :
Création d'un filtre
Lorsque vous utilisez l'option Application de la règle pendant : la collecte de documents avec Type de règle : Include, make sure that the URL in the field Collect documents linked from this URL: doit correspondre à la règle spécifiée, faute de quoi, aucun document n'est collecté. Par exemple, le balayage de l'URL http://www.ibm.com/products avec le filtre d'URL */products/* ne génère aucun résultat car la règle comporte une barre oblique de fin mais pas l'URL. En revanche, le balayage de l'URL http://www.ibm.com/products/ avec le filtre d'URL */products/* (avec une barre oblique de fin dans les deux cas) ou le balayage de l'URL http://www.ibm.com/products avec le filtre d'URL */products* (sans barre oblique de fin) fonctionne.

Configuration de la sécurité pour une source de contenu

Vous pouvez configurer la sécurité lors de l'indexation de sources de contenu sécurisées et de référentiels qui demandent une authentification. Cliquez sur l'onglet Sécurité pour afficher les deux zones suivantes :
Définir un domaine de sécurité
Utilisez cette zone pour ajouter de nouvelles sources de contenu sécurisées.
Domaines de sécurité
Cette zone affiche la liste des domaines de sécurité existants.
Dans la zone Définir un domaine de sécurité, renseignez les zones de saisie suivantes :
Nom d'utilisateur
Entrez l'ID utilisateur avec lequel le moteur de balayage peut accéder à la source de contenu ou au référentiel sécurisés.
Mot de passe
Entrez le mot de passe associé à l'ID utilisateur que vous avez indiqué comme nom d'utilisateur.
Nom d'hôte
Entrez le nom du serveur. Pour les sites de portail et les fournisseurs de liste de départ, cette entrée n'est pas obligatoire. Si vous la laissez vide, le nom d'hôte est déduit de l'URL racine fournie.
Domaine
Entrez le domaine de la source de contenu ou du référentiel sécurisés.

Lancement d'une collecte de documents sur une source de contenu

Pour lancer une mise à jour manuellement à partir d'une source de contenu, procédez comme suit :
  1. Cliquez sur Démarrer le moteur de balayage pour la source de contenu pour laquelle vous souhaitez lancer une nouvelle exécution du moteur de balayage. Le moteur de balayage extrait les documents de la source de contenu sélectionnée. S'ils sont nouveaux ou modifiés, ils sont mis à jour dans la collection de recherche. Lors du balayage, l'icône devient Arrêter le moteur de balayage et vous pouvez cliquer dessus pour arrêter le balayage. Recherche de portail régénère les différentes sources de contenu comme suit :
    • Pour des sources de contenu de site Web, les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais qui n'existent plus sont conservés dans la collection de recherche. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
    • Pour des sites HCL Portal, le balayage ajoute toutes les pages et tous les portlets à la source de contenu. Il supprime de la source de contenu les portlets et les pages statiques qui ont été supprimés du portail. Le balayage fonctionne de la même manière que l'option Regrouper les documents de la source de contenu.
    • Pour les sites HCL Web Content Manager, la recherche dans le portail utilise une méthode de balayage incrémentiel. Outre le contenu ajouté et mis à jour, la liste de départ indique explicitement le contenu supprimé. Par contre, la sélection de l'option Regrouper les documents de la source de contenu démarre un balayage complet. Cette option ne continue pas le balayage de la dernière session et n'est donc pas incrémentielle.
    • For content sources created with the seedlist provider option, a crawl on a remote system that supports incremental crawling, such as HCL Connections, behaves like a crawl on a Web Content Manager site.
  2. Pour afficher les informations d'état actualisées concernant la progression du processus de balayage, cliquez sur Actualiser. Les informations d'état suivantes sont alors mises à jour :
    Documents
    Indique le nombre de documents collectés jusque-là par le moteur de balayage à partir de la source sélectionnée.
    Heure d'exécution
    Indique le temps qu'a passé jusque-là le moteur de balayage sur la source de contenu concernée.
    Statut
    Indique si le balayage de la source de contenu est en cours ou inactif.

Vérification de l'adresse d'une source de contenu

Pour vérifier l'adresse URL d'une source de contenu, localisez la source de contenu et cliquez sur l'icône Vérifier l'adresse.

Si la source de contenu Web est disponible et si elle n'est pas bloquée par un fichier robots.txt, le portlet Gérer la recherche renvoie un message indiquant que la source de contenu est OK. Si la source de contenu n'est pas valide, si elle inaccessible ou bloquée, le portlet Gestion des recherches renvoie un message d'erreur.

Lorsque vous créez une nouvelle source de contenu, le portlet Gestion des ressources démarre la fonction Vérifier l'adresse.

Portées de recherche et liens personnalisés 

A partir de Portées de la recherche, vous pouvez visualiser et gérer les portées de recherche et les liens personnalisés. Les portées de recherche sont proposées aux utilisateurs sous forme d'options de recherche, dans la liste déroulante de la zone de recherche de la bannière, ainsi que dans le portlet Centre de recherche. Les utilisateurs peuvent ainsi sélectionner une portée afin de mieux cibler leurs recherches. Vous pouvez configurer les portées de la recherche de l'une des manières suivantes :
  • Un ou plusieurs emplacements de recherche ou sources de contenu.
  • Les traits ou les caractéristiques du document, comme son type.
HCL inclut les portées suivantes :
Tous les hôtes
Cette portée inclut tous les documents quelles que soient leurs fonctions et leur source de contenu.
Contenu Web géré
Cette portée limite la recherche aux sites qui ont été créés par Web Content Manager.

Vous pouvez ajouter vos propres portées de recherche personnalisées et une icône pour chaque portée. Vos icônes sont placées dans la liste de portées.

Vous pouvez également ajouter de nouveaux liens personnalisés vers les emplacements de recherche. Ce lien personnalisé inclut des liens vers des emplacements Web externes tels que Google ou Yahoo. La recherche globale du centre de recherche propose des liens personnalisés dans le menu de sélection des options de recherche.

Gestion des portées de recherche et des liens personnalisés

Sur le panneau Portées de recherche et liens personnalisés, sélectionnez les options ou icônes suivantes pour exécuter les tâches correspondantes sur les portées de recherche et les liens personnalisés :
Nouvelle portée
Cliquez sur cette option pour créer une nouvelle portée de recherche. Pour plus d'informations, voir Création d'une nouvelle portée de recherche.
Actualiser
Cliquez sur cette option pour actualiser les informations relatives aux portées, par exemple, l'état des portées, ou aux mises à jour qu'un autre administrateur a effectuées sur les portées.
Flèches de déplacement vers le bas et vers le haut
Cliquez sur ces flèches pour déplacer les portées de recherche vers le haut ou vers le bas dans la liste. L'ordre choisi ici sera celui dans lequel les portées seront présentées aux utilisateurs dans le menu d'options de recherche du portlet Centre de recherche.
Editer la portée de la recherche
Cliquez sur cette icône pour travailler sur une portée de recherche ou la modifier. Pour plus de détails, reportez-vous à la section Edition d'une portée de recherche.
Supprimer la portée de la recherche
Cliquez sur cette icône pour supprimer une portée de recherche.
Nouveau lien personnalisé
Cliquez sur cette option pour ajouter un nouveau lien personnalisé. Pour plus d'informations, voir Ajout d'un nouveau lien personnalisé.
Editer un lien personnalisé
Cliquez sur cette icône pour travailler sur un lien personnalisé ou le modifier.
Supprimer un lien personnalisé
Cliquez sur cette icône pour supprimer un lien personnalisé.
Remarque : Vous devez effacer le cache du navigateur pour voir les modifications, par exemple, une nouvelle portée ou la nouvelle portée par défaut affichée à l'emplacement correct.

Création d'une portée de recherche

Pour créer une nouvelle portée de recherche, cliquez sur Nouvelle portée pour faire apparaître la page Nouvelle portée de recherche. Entrez les données requises dans les zones de saisie et sélectionnez les options disponibles appropriées :
Nom de portée
Zone obligatoire dans laquelle vous entrez un nom pour la nouvelle portée de recherche. Le nom doit être unique dans le portail en cours ou le portail virtuel.
Description
Zone facultative dans laquelle vous pouvez entrer une description de la portée.
URL de l'icône personnalisée :
Entrez l'emplacement d'URL où le portail pourra localiser l'icône de portée à afficher avec les options de recherche. If the icon file exists in the default icon directory wps/images/icons, you need to type only the icon file name. S'il est situé à un autre endroit, entrez son chemin absolu suivi de son nom de fichier. Click Check icon path to ensure that the icon is available at the URL you specified.
Etat :
Définissez l'état souhaité pour la portée de recherche. To make the scope available to users, set the status to Active.
Visible pour les utilisateurs anonymes :
Sélectionnez Oui pour permettre aux utilisateurs qui accèdent au portail sans authentification d'accéder à la portée. Sélectionnez Non pour permettre l'accès à la portée seulement aux utilisateurs authentifiés.
Texte de requête (facultatif) :
Entrez un texte de requête qui est ajouté de manière invisible à la suite de toutes les recherches lancées dans cette portée. Les recherches renvoient les résultats correspondant aux recherches que vous avez lancées et au texte que vous avez entré dans cette zone. Les deux ensembles de résultats ont le même ordre de priorité dans la liste de résultats. Le texte de requête saisi doit respecter la syntaxe de saisie d'une requête dans le centre de recherche. Pour plus d'informations sur ces règles de syntaxe, consultez l'aide du portlet Centre de recherche.
Sélectionner les emplacements
Sélectionnez l'emplacement requis. Seuls les documents présents dans ces emplacements de recherche ou ces sources de contenu sont inclus à la recherche lorsque l'utilisateur sélectionne cette portée pour leur recherche.
Remarque : L'arborescence des emplacements affiche également les sources de contenu qui sont supprimées si elles contiennent toujours des documents dans la collection. Lorsqu'une source de contenu supprimée ne contient pas de documents, le démon de nettoyage la supprime de l'arborescence des emplacements.

Pour définir les noms et les descriptions de la portée de recherche, vous devez créer et enregistrer d'abord la portée. Then, locate the scope on the scopes list and edit the scope by clicking the Edit icon. L'option permettant de définir les noms et les descriptions dans d'autres environnements locaux est disponible uniquement sur la page Editer la portée de la recherche.

Remarque : Si vous modifiez une source de contenu incluse dans la portée d'une recherche, vous devez mettre cette portée à jour manuellement pour vous assurer que la source de contenu est toujours prise en compte. En particulier, si vous avez changé le nom de la source de contenu, éditez la portée et vérifiez que la source y est toujours répertoriée. Si tel n'est pas le cas, ajoutez-la de nouveau.