Gestion de la recherche
Le portlet Gestion de la recherche permet d'administrer la recherche du portail.
Pour gérer la recherche dans le portail, cliquez sur l'icône Menu d'administration dans la barre d'outils. Cliquez ensuite sur dans le menu du portail. Le portail affiche le portlet d'administration Gérer la recherche.
- Services de recherche
- Ces services représentent des instances distinctes du moteur de recherche. Pour gérer les services de recherche, cliquez sur Services de recherche pour accéder à la page Services de recherche. Cliquez sur le nom d'un service de recherche pour afficher les collections de recherche et les sources de contenu qui l'utilisent.
- Collections de recherche
- Une collection de recherche contient une ou plusieurs sources de contenu provenant du Web et du portail, ainsi que les index de recherche correspondants qui permettent aux utilisateurs de rechercher du contenu. Pour gérer les collections de recherche et leurs sources de contenu, cliquez sur Collections de recherche afin d'afficher la page Collections de recherche.
- Portées de recherche et liens personnalisés.
- Les portées de recherche limitent les résultats à des emplacements de contenu et des types de document spécifiques. Les administrateurs définissent ces portées pour permettre des recherches ciblées par l'utilisateur. Un lien personnalisé est un raccourci Web qui permet aux utilisateurs d'effectuer des recherches directement dans les moteurs de recherche Web, tels que Google ou Yahoo. Pour gérer les portées de recherche et les liens personnalisés, cliquez sur Portées de recherche. La page Portées de recherche et liens personnalisés s'affiche.
Services de recherche
- Service de recherche du portail
- Sélectionnez ce service pour gérer des collections de recherche composées de pages de portail, de contenus gérés par HCL Web Content Manager ou de pages Web indexées. Dans un environnement en cluster, vous devez configurer un service de recherche distant. Remarque : Le moteur de balayage HTTP de la fonction de recherche de portail ne prend pas en charge JavaScript. Il est donc possible que les textes générés par du code JavaScript ne soient pas disponibles pour la recherche.
Vous pouvez également créer d'autres services de recherche personnalisés et les ajouter à votre portail.
- Création d'un service de recherche
- Pour créer un nouveau service de recherche, cliquez sur Nouveau service de recherche. Le portlet Gérer la recherche affiche la page Nouveau service de recherche. Spécifiez un nom de service unique dans le portail en cours ou le portail virtuel.
Collections de recherche
Le portlet Collections de recherche vous permet de visualiser et gérer les collections de recherche et leurs sources de contenu dans le portail. Vous pouvez construire et tenir à jour des collections de recherche de contenu Web, de contenu Web Content Manager, de contenu de portail, ainsi que les collections de recherche connexes. Les utilisateurs pourront dès lors effectuer des recherches dans ces collections à l'aide du Centre de recherche du portail.
Une collection de recherche peut avoir une ou plusieurs sources de contenu, telles que des pages Web, un contenu Web Content Manager ou des pages de portlet et des portlets. La collection de recherche par défaut du portail combine deux sources de contenu et leurs moteurs de balayage associés :
- Source de contenu de portail
- La source de contenu du portail contient le site de portail local, sur lequel les utilisateurs peuvent rechercher des portlets et des pages de portail.
- Source du contenu de Web Content Manager
- La source de contenu Web Content Manager permet aux utilisateurs de rechercher du contenu Web.
Lors du processus de génération de la collection de recherche, les contenus sont extraits de leurs sources respectives par un moteur de balayage (ou robot) pour leur indexation. La collection de recherche stocke des mots clés et des métadonnées et les mappe à leur source d'origine. Elle permet un traitement rapide des requêtes lancées à partir du portlet Centre de recherche.
Les ressources peuvent être stockées sur le serveur de portail local ou sur des sources de contenu distantes afin d'y être recherchées. Le contenu peut être traité par des moteurs de balayage, s'il est accessible via le protocole HTTP. Par exemple, il peut s'agir de contenu provenant de pages de portail, de Web Content Manager et de documents hébergés par des serveurs Web. Les documents peuvent être de différents types, par exemple des fichiers texte éditables, des documents de suites Office telles que celle de Microsoft ou OpenOffice, ou encore des fichiers PDF.
Gestion des collections de recherche
- Sélectionnez Actualiser pour mettre à jour les informations et les icônes d'option disponibles pour les collections. Exemples :
- Si un balayage est en cours d'exécution ou s'est terminé, le nombre de documents est mis à jour.
- Si un balayage a été exécuté sur une collection depuis la dernière actualisation, de nouvelles icônes d'option peuvent apparaître. Par exemple, Rechercher et parcourir la collection.
- Si les collections de recherche ont été mises à jour par un autre administrateur, les informations sont actualisées.
- Sur la page Collections de recherche, vous pouvez importer et exporter des collections de recherche. Vous pouvez également afficher le statut de la collection de recherche et gérer les sources de contenu en cliquant sur le nom de celle-ci. Remarque : Les icônes de certaines tâches ne sont disponibles que si l'utilisateur actuel est autorisé à effectuer ces tâches sur la collection de recherche.
Création d'un collection de recherche
Certaines des zones de saisie et options suivantes sont disponibles lorsque vous créez une collection de recherche :
- Emplacement de la collection
- Utilisez cette zone pour entrer le chemin du répertoire dans lequel créer la collection de recherche et enregistrer ses données. Vous pouvez entrer un chemin d'accès complet ou un chemin d'accès relatif au répertoire indiqué par le paramètre
Collections Locationsdu service de recherche. La collection de recherche est créée à l'emplacement suivant :- Si vous entrez un nom de votre choix, l'emplacement de la nouvelle collection de recherche est dérivé du répertoire par défaut et du nom. Exemple : If you type my_collection_location, the new search collection is created under the directory
wp_root/collections/my_collection_location. Pour plus d'informations sur le répertoire par défaut pour les collections de recherche et la manière de le configurer, voir la rubrique Configuration de l'emplacement par défaut d'une collection de recherche dans la documentation produit sous Recherche dans le portail. - Si vous tapez le chemin de répertoire complet, l'emplacement de la nouvelle collection de recherche est différent de l'emplacement de collection de recherche par défaut. La nouvelle collection de recherche est créée sous l'emplacement de répertoire que vous spécifiez.
- Si vous entrez un nom de votre choix, l'emplacement de la nouvelle collection de recherche est dérivé du répertoire par défaut et du nom. Exemple : If you type my_collection_location, the new search collection is created under the directory
- Nom de la collection
- Utilisez cette zone pour entrer le nom de la nouvelle collection de recherche. Si vous n'indiquez pas de nom, l'emplacement entré dans la zone précédente est utilisé pour la collection de recherche.
- Spécifiez la langue de la collection
- Ce menu permet de sélectionner une langue pour la collection de recherche. La collection de recherche et son index sont optimisés pour la langue. Cette fonction permet d'améliorer la qualité des résultats de recherche car elle permet d'utiliser des variantes orthographiques (pluriels et autres flexions grammaticales) des mots-clés à rechercher. La recherche utilise cette langue pour l'indexation, si aucune langue n'est définie pour le document. Sélectionnez l'une des options Non spécifié pour indexer les documents sans utiliser les radicaux des mots.Remarque : Ce paramètre n'est pas remplacé lors de l'importation d'une collection de recherche, par exemple lors de la migration de cette dernière. Si vous créez la collection de recherche pour migrer une collection existante, votre sélection doit correspondre à la collection source.
- Sélectionnez le programme de résumé
- Ce menu permet de sélectionner un programme de résumé pour la collection de recherche. Sélectionnez l'une des options suivantes :
- Choose None if no summary is generated. Si vous choisissez cette option, le centre de recherche utilise les métadonnées de description du document, si celui-ci en comporte.
- Choose Automatic if an automatic summarizer is generated.
Affichage de l'état d'une collection de recherche
- Dernière mise à jour exécutée :
- Indique la date à laquelle une source de contenu a été mise à jour pour la dernière fois lors d'un balayage planifié, et indexée.Remarque : Le délai que vous pouvez spécifier via le paramètre Arrêt de la collecte après (minutes) : est une approximation. Il peut être dépassé d'un certain pourcentage, car l'indexation des documents après le balayage demande du temps supplémentaire.
Si votre portail comporte une collection de recherche défectueuse, le portlet affiche un lien permettant d'accéder à celle-ci.
Migration des collections de recherche
Lorsque vous passez à une nouvelle version d'HCL, rien ne garantit que son format de stockage des données soit compatible avec celui de l'ancienne version. Pour éviter de perdre des données, exportez toutes les données des collections de recherche au format XML avant de procéder à la mise à niveau. Après quoi, vous pourrez créer une collection de recherche et utiliser les données exportées antérieurement pour importer les données de la collection de recherche dans la version mise à niveau de votre portail.
- Si vous omettez ces étapes, vos collections de recherche seront perdues après la mise à niveau.
- Lorsque vous créez la collection de recherche sur le portail mis à niveau, entrez les données et procédez comme suit :
- Entrez l'emplacement, le nom et la description de la nouvelle collection. Vous pouvez réutiliser les anciens paramètres ou en spécifier des nouveaux.
- Vous n'avez pas besoin de sélectionner un programme de résumé. Ces paramètres sont écrasés lorsque vous importez les données à partir de la collection de recherche source.
- Vous ne pouvez pas migrer une collection de sites de portail entre différentes versions d'HCL. Si vous effectuez une mise à niveau vers une autre version, vous devez recréer la collection de sites de portail. Procédez comme suit :
- Documentez les données de configuration de votre source de contenus du site de portail.
- Supprimez la source de contenu existante.
- Mettez à niveau votre portail.
- Sur le portail mis à niveau, créez une nouvelle source de contenu du site de portail. Utilisez les données de configuration documentées.
- Exécutez la nouvelle source de contenu du portail.
Les portlets explorés avant la mise à niveau, mais qui n'existent pas dans la portail mis à niveau, ne sont pas renvoyés lors d'une recherche.
Pour plus d'informations concernant ces tâches, consultez les rubriques traitant de la migration, de l'importation et de l'exportation de collections de recherche dans le centre de documentation.
Pour plus d'informations sur l'exportation et l'importation de ces collections, voir Exportation d'une collection de recherche et Importation d'une collection de recherche.
Exportation d'une collection de recherche
- Avant d'exporter une collection, assurez-vous que l'utilisateur qui exécute le processus d'application de portail dispose d'un droit d'accès en écriture sur l'emplacement du répertoire cible. Otherwise, you might get an error message, such as File not found.
- Assurez-vous que le répertoire cible est vide ou qu'il ne contient aucun fichier dont vous pourriez avoir besoin, car l'exportation peut écraser les fichiers de ce répertoire.
- Localisez la collection de recherche que vous désirez exporter.
- Dans la liste, cliquez sur Importer ou exporter une collection, à côté de la collection de recherche. Le portlet Gérer la recherche affiche l'écran d'importation/exportation des collections de recherche.
- Dans la zone de saisie Indiquez l'emplacement (chemin d'accès absolu avec l'extension XML), saisissez le chemin complet et le nom du fichier XML dans lequel vous souhaitez exporter la collection de recherche et ses données. Indiquez le nom de la collection ainsi que le répertoire et le nom du fichier cible qui servira à la réimportation ultérieure de la collection. Remarque : Lorsque vous spécifiez l'emplacement du répertoire cible pour l'exportation, sachez que les fichiers placés à cet endroit pourront être écrasés lors de l'exportation.
- Cliquez sur Exporter pour exporter les données de la collection de recherche. Le portlet Gestion des recherches écrit l'ensemble des données de la collection de recherche dans un fichier XML et le stocke à l'emplacement que vous avez indiqué. Vous pourrez utiliser ce fichier ultérieurement comme source d'importation de la collection de recherche dans un autre portail.
- Pour retourner au panneau précédent sans exporter la collection de recherche, cliquez sur le lien approprié du trajet de navigation (fil d'Ariane).
Importation d'une collection de recherche
- Avant d'importer les données d'une collection, vous devez créer leur conteneur, Vous pouvez créer l'interpréteur de commandes vide en créant une collection de recherche. Seule la zone obligatoire Emplacement de la collection est à renseigner. Vous n'avez pas à ajouter de sources de contenu ni de documents, car ils sont fournis par les données importées.
- Dans la liste des collections de recherche, sélectionnez celle dans laquelle vous souhaitez importer les données.
- Dans la liste, cliquez sur Importer ou exporter, à côté de la collection de recherche. Manage Search displays the Import and Export Search Collection panel.
- Dans la zone de saisie Indiquez l'emplacement (chemin d'accès absolu avec l'extension XML) :, entrez le chemin complet du répertoire et le nom du fichier XML des données de la collection de recherche à importer dans la collection de recherche sélectionnée.
- Cliquez sur Importer pour importer l'ensemble des données de la collection de recherche à partir du fichier XML indiqué dans la collection de recherche sélectionnée.
- Pour retourner au panneau précédent sans importer de collection de recherche, cliquez sur le lien approprié du trajet de navigation (fil d'Ariane).
- Au besoin, vous pouvez maintenant compléter la collection de recherche par d'autres sources de contenu et documents.
- Importez les données de collection uniquement dans une collection vide. N'importez pas de données de collection dans une collection cible qui contient des sources de contenu ou des documents.
- Lorsque vous importez des données de collection dans une collection, tous les paramètres sont remplacés par ceux de la collection importée. Par exemple, le paramètre de langue est remplacé ou un regroupeur est ajouté, s'il a été spécifié pour la collection de recherche importée.
- Lorsque vous importez une collection, un processus d'arrière-plan extrait, balaie et indexe tous les documents listés par URL dans le fichier précédemment exporté. Ce processus s'effectue en mode asynchrone et il peut s'écouler un certain temps avant que les documents ne deviennent disponibles.
- Lorsque vous importez une collection contenant une source de contenu de site de portail créée dans une précédente version, vous devez exécuter les actions suivantes :
- Procéder à une nouvelle collecte du contenu en supprimant la source de contenu de site existante
- Créer une source de contenu de site
- Démarrer un balayage
Régénération des données de collection
Suppression d'une collection de recherche
Gestion des sources du contenu d'une collection de documents
Pour travailler sur les sources de contenu d'une collection de recherche, cliquez sur le nom de la collection dans la liste des collections de recherche. Le portlet Gérer la recherche affiche les données Sources de contenu et Etat de la collection de recherche de la collection de recherche sélectionnée. Une collection de recherche peut être configurée pour couvrir plusieurs sources de contenu.
- Cliquer sur Actualisation pour actualiser les informations d'état. Si un balayage de la source de contenu est en cours, cette option a pour effet de mettre à jour les données relatives à la durée d'exécution de cette opération ainsi que la liste des documents collectés jusque-là.
- Afficher les informations d'état de la source de contenu :
- Documents
- Nombre de documents dans la source de contenu. Si vous cliquez sur Actualiser au cours d'un balayage, cette action indique le nombre de documents collectés jusque-là par le moteur de balayage.
- Durée d'exécution
- Durée d'exécution du dernier moteur de balayage exécuté sur les sources de contenu. Si vous cliquez sur Actualiser au cours d'un balayage, cette action indique le temps qu'a passé le moteur de balayage jusque-là.
- Dernière exécution
- Date et heure de démarrage du dernier balayage de la source de contenu.
- Prochaine exécution
- Date et heure de démarrage de la prochaine exécution de la source de contenu, si elle est planifiée.
- Statut
- Etat de la source de contenu, qui peut indiquer que la source de contenu est inactive ou qu'un balayage est en cours d'exécution.
- Sélectionnez l'icône d'une source de contenu particulière et effectuez l'une des tâches suivantes :
- Afficher les planificateurs de source de contenu. Cette icône ne s'affiche que si vous avez défini des balayages planifiés pour cette source de contenu. Si vous cliquez sur cette icône, le portlet répertorie les balayages planifiés, ainsi que les informations suivantes :
- Date de début
- Heure de début
- Intervalle de répétition
- Date de la prochaine exécution
- Heure de la prochaine exécution
- Etat. Une option peut être désactivée ou activée.
- Démarrer le moteur de balayage. Cliquez sur cette icône pour démarrer un balayage de la source de contenu. Le contenu de la source est alors mis à jour par une nouvelle exécution du moteur de balayage. Lors du balayage, l'icône devient Arrêter le moteur de balayage ; vous pouvez cliquer pour arrêter le balayage. Pour plus d'informations, voir Lancement d'une collecte de documents à partir d'une source de contenu . Recherche de portail régénère les différentes sources de contenu comme suit :
- Pour des sources de contenu de site Web, les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais qui n'existent plus sont conservés dans la collection de recherche. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
- Pour des sites HCL Portal, le balayage ajoute toutes les pages et tous les portlets à la source de contenu. Il supprime de la source de contenu les portlets et les pages statiques qui ont été supprimés du portail. Le balayage fonctionne de la même manière que l'option Regrouper les documents de la source de contenu.
- Pour les sites HCL Web Content Manager, la recherche dans le portail utilise une méthode de balayage incrémentiel. Outre le contenu ajouté et mis à jour, la liste de départ indique explicitement le contenu supprimé. Par contre, la sélection de l'option Regrouper les documents de la source de contenu démarre un balayage complet. Cette option ne continue pas le balayage de la dernière session et n'est donc pas incrémentielle.
- For content sources created with the seedlist provider option, a crawl on a remote system that supports incremental crawling, such as HCL Connections, behaves like a crawl on a Web Content Manager site.
- Regrouper les documents de la source de contenu. Cette option supprime de la source de contenu les documents existants issus de balayages précédents. Ensuite, elle démarre un balayage complet de la source de contenu. Les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais n'existent plus dans la source de contenu sont supprimés de la collection. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
-
Notes :
- Il peut s'avérer judicieux de définir un ID utilisateur de moteur de balayage dédié. The pre-configured default portal site search uses the default administrator user ID wpsadmin with the default password of that user ID for the crawler. Si vous avez modifié l'ID utilisateur de l'administrateur par défaut lors de l'installation du portail, le moteur de balayage utilise cet ID utilisateur par défaut. Si vous avez apporté des modifications à l'ID utilisateur ou au mot de passe pour l'ID administrateur et que vous souhaitez continuer à utiliser le moteur de balayage du portail de recherche, vous devez adapter les paramètres.
Pour définir un ID utilisateur de moteur de balayage, sélectionnez l'onglet Sécurité et mettez à jour l'ID utilisateur et le mot de passe. Cliquez sur Sauvegarder.
- Si vous modifiez une source de contenu incluse dans la portée d'une recherche, vous devez mettre cette portée à jour manuellement pour vous assurer que la source de contenu est toujours prise en compte. En particulier, si vous avez changé le nom de la source de contenu, éditez la portée et vérifiez que la source y est toujours répertoriée. Si tel n'est pas le cas, ajoutez-la de nouveau.
- Si vous supprimez une source de contenu, les documents qui ont été collectés restent disponibles pour les recherches des utilisateurs dans toutes les portées. Toutes les portées incluaient la source de contenu avant sa suppression. Ces documents restent disponibles jusqu'à ce qu'ils arrivent à expiration. Sous Paramètres généraux, vous pouvez spécifier le délai d'expiration à partir du menu Les liens expirent après (jours) :.
- Il peut s'avérer judicieux de définir un ID utilisateur de moteur de balayage dédié. The pre-configured default portal site search uses the default administrator user ID wpsadmin with the default password of that user ID for the crawler. Si vous avez modifié l'ID utilisateur de l'administrateur par défaut lors de l'installation du portail, le moteur de balayage utilise cet ID utilisateur par défaut. Si vous avez apporté des modifications à l'ID utilisateur ou au mot de passe pour l'ID administrateur et que vous souhaitez continuer à utiliser le moteur de balayage du portail de recherche, vous devez adapter les paramètres.
- Afficher les planificateurs de source de contenu. Cette icône ne s'affiche que si vous avez défini des balayages planifiés pour cette source de contenu. Si vous cliquez sur cette icône, le portlet répertorie les balayages planifiés, ainsi que les informations suivantes :
Nouvelle source de contenu
Lorsque vous créez une nouvelle source de contenu pour une collection de recherche, elle est analysée et la collection de recherche est complétée par les documents provenant de cette source de contenu. Vous pouvez identifier l'emplacement où l'index recherche et les informations qu'il recherche. Cliquez sur les options du menu Type de source de contenu. Les zones de saisie et les paramètres que vous pouvez spécifier sont les suivants :
- Site Web
- Sélectionnez cette option pour tous les sites distants qui incluent les sites Web et les sites de portail distants. Seules les pages anonymes peuvent être indexées et faire l'objet d'une recherche sur les sites de portails distants.
- Fournisseur de la liste de départ
- Sélectionnez cette option si le moteur de balayage utilise la liste d'origine en tant que contenu source pour la collection.
- Site de portail
- Sélectionnez cette option si la source de contenu est votre site de portail local.
- Site de contenu Web géré
- Pour mettre une source de contenu de ce type à la disposition de la fonction de recherche du portail, vous devez la créer dans le portlet de création de Web Content Manager. Sélectionnez l'option appropriée pour la rendre disponible pour les recherches et spécifiez la collection de recherche à laquelle elle appartient. Une fois votre site de contenu Web géré terminé, il est intégré à la liste des sources de contenu de la collection de recherche que vous avez spécifiée.
- Sélectionnez les onglets pour configurer les différents types de paramètres de la source de contenu :
Définition des paramètres généraux d'une source de contenu
- Entrez l'URL Web ou l'URL de portail requise dans la zone Collecter les documents liés à partir de cette URL obligatoire. Cette action détermine l'URL racine à partir de laquelle le moteur de balayage commence le balayage. Pour les sources de contenu de portail, cette zone est automatiquement renseignée par le portlet Gestion des recherches.Notes :
- Pour les sites Web, vous devez entrer le nom complet, y compris http://. Par exemple: http://www.cnn.com. Le fait d'entrer uniquement www.cnn.com génère une erreur.
- Un problème de réacheminement de l'adresse URL peut provoquer un échec du moteur de recherche. Si ce problème ce produit, essayez de modifier cette zone, par exemple en remplaçant l'URL par l'URL de réacheminement.
- Effectuez votre sélection parmi les options suivantes répertoriées dans les listes. Les zones et les options disponibles varient selon le type de source de contenu que vous avez sélectionné.
- Niveaux des liens à suivre :
- Pour le balayage des sites Web, cette option permet de déterminer le niveau de profondeur de balayage, c'est-à-dire le nombre maximal de niveaux de liens imbriqués que le moteur de balayage suit à partir de l'URL racine.
- Nombre de documents liés à collecter :
- Pour le balayage des sites Web, cette option permet de déterminer le nombre maximal de documents indexés par le moteur de balayage pendant chaque session. Le nombre de documents indexés comprend les documents réindexés lorsque leur contenu a été modifié.
- Interrompre la collecte après (en minutes) :
- Cette option permet de définir la durée maximale en minutes d'une session de balayage du moteur de balayage pour les sites Web.Remarque : Le délai d'attente fonctionne comme un délai approximatif. Elle peut être dépassée d'un certain pourcentage.
- Interrompre l'extraction de documents après (en secondes) :
- Cette option indique la durée pendant laquelle le moteur de balayage tente d'extraire un document. Elle permet de définir le délai maximal en secondes pour terminer la phase initiale de connexion HTTP (réception des en-têtes HTTP). Ce délai doit être déterminé parce qu'il est utilisé pour empêcher le moteur de balayage d'être bloqué indéfiniment par une mauvais connexion. Toutefois, il permet au moteur de balayage de pouvoir extraire de gros fichiers qui mettent longtemps à charger (tels que des fichiers compressés).
Définition des paramètres avancés d'une source de contenu
- Nombre de processus parallèles :
- Ce paramètre détermine le nombre d'unités d'exécution utilisées par le moteur de balayage pendant une session.
- Jeu de caractères par défaut :
- Ce paramètre définit le jeu de caractères par défaut utilisé par le moteur de balayage, s'il ne peut pas définir le jeu de caractères d'un document. Remarque : La zone d'entrée pour le chiffrement de caractère par défaut contient la valeur par défaut initiale
windows-1252, quel que soit le paramètre de langue par défaut du portail sous . Entrez le codage de caractère par défaut requis selon la langue de votre portail. Sinon, les documents risquent de ne pas être affichés correctement dans Parcourir les documents. - Toujours utiliser le jeu de caractères par défaut :
- Si vous cochez cette option, le moteur de balayage utilisera toujours le jeu de caractères par défaut, peu importe le jeu de caractères du document. Si vous ne cochez pas cette option, le moteur de balayage essaiera de déterminer le jeu de caractères du document.
- Obéir à Robots.txt
- Si vous sélectionnez cette option, le moteur de balayage respecte les restrictions indiquées dans le fichier
robots.txtlorsqu'il accède aux URL des documents. Cette option est disponible uniquement pour le type de source de contenu de site Web et non pour le site de portail ou le fournisseur de liste de départ. - Serveur proxy :
- Si vous laissez la zone de serveur proxy HTTP vide, le moteur de balayage n'utilisera pas de serveur proxy.
- Port :
- Si vous laissez cette zone vide, le moteur de balayage n'utilisera pas de serveur proxy.
Configuration du planificateur
- Définir le planning
- Ajoutez un nouveau planning à partir de cette zone.
- Mises à jour planifiées
- Cette zone indique à quel moment les balayages sont terminés.
Configuration des filtres
Ces filtres contrôlent la progression de l'exploration et le type de documents indexés et catalogués. To configure filters, click the Filters tab. You can define new filters in the Define Filter Rules box. The defined filters are listed in the Filtering Rules box.
- Filtres d'URL
- Ces filtres déterminent les documents à balayer et à indexer en fonction de l'URL où ils sont trouvés.
- Filtres de type
- Ces filtres déterminent les documents à balayer et à indexer en fonction de leur type.
Si vous ne définissez pas de filtres, tous les documents d'une source de contenu sont extraits et balayés. If you click Include filters, only those documents that pass the included filters are crawled and indexed. If you click Exclude filters, they override the included filters. Si vous ne définissez aucun filtre d'inclusion, ils limitent le nombre de documents balayés et indexés. Plus précisément, si un document transmet l'un des filtres d'inclusion mais aussi l'un des filtres d'exclusion, il n'est pas balayé, indexé ni catalogué.
- Création d'un filtre
- Lorsque vous utilisez l'option Application de la règle pendant : la collecte de documents avec Type de règle : Include, make sure that the URL in the field Collect documents linked from this URL: doit correspondre à la règle spécifiée, faute de quoi, aucun document n'est collecté. Par exemple, le balayage de l'URL http://www.ibm.com/products avec le filtre d'URL */products/* ne génère aucun résultat car la règle comporte une barre oblique de fin mais pas l'URL. En revanche, le balayage de l'URL http://www.ibm.com/products/ avec le filtre d'URL */products/* (avec une barre oblique de fin dans les deux cas) ou le balayage de l'URL http://www.ibm.com/products avec le filtre d'URL */products* (sans barre oblique de fin) fonctionne.
Configuration de la sécurité pour une source de contenu
- Définir un domaine de sécurité
- Utilisez cette zone pour ajouter de nouvelles sources de contenu sécurisées.
- Domaines de sécurité
- Cette zone affiche la liste des domaines de sécurité existants.
- Nom d'utilisateur
- Entrez l'ID utilisateur avec lequel le moteur de balayage peut accéder à la source de contenu ou au référentiel sécurisés.
- Mot de passe
- Entrez le mot de passe associé à l'ID utilisateur que vous avez indiqué comme nom d'utilisateur.
- Nom d'hôte
- Entrez le nom du serveur. Pour les sites de portail et les fournisseurs de liste de départ, cette entrée n'est pas obligatoire. Si vous la laissez vide, le nom d'hôte est déduit de l'URL racine fournie.
- Domaine
- Entrez le domaine de la source de contenu ou du référentiel sécurisés.
Lancement d'une collecte de documents sur une source de contenu
- Cliquez sur Démarrer le moteur de balayage pour la source de contenu pour laquelle vous souhaitez lancer une nouvelle exécution du moteur de balayage. Le moteur de balayage extrait les documents de la source de contenu sélectionnée. S'ils sont nouveaux ou modifiés, ils sont mis à jour dans la collection de recherche. Lors du balayage, l'icône devient Arrêter le moteur de balayage et vous pouvez cliquer dessus pour arrêter le balayage. Recherche de portail régénère les différentes sources de contenu comme suit :
- Pour des sources de contenu de site Web, les documents qui ont été indexés auparavant et qui existent toujours dans la source de contenu sont mis à jour. Les documents qui ont été indexés auparavant, mais qui n'existent plus sont conservés dans la collection de recherche. Les documents qui sont nouveaux dans la source de contenu sont indexés et ajoutés à la collection.
- Pour des sites HCL Portal, le balayage ajoute toutes les pages et tous les portlets à la source de contenu. Il supprime de la source de contenu les portlets et les pages statiques qui ont été supprimés du portail. Le balayage fonctionne de la même manière que l'option Regrouper les documents de la source de contenu.
- Pour les sites HCL Web Content Manager, la recherche dans le portail utilise une méthode de balayage incrémentiel. Outre le contenu ajouté et mis à jour, la liste de départ indique explicitement le contenu supprimé. Par contre, la sélection de l'option Regrouper les documents de la source de contenu démarre un balayage complet. Cette option ne continue pas le balayage de la dernière session et n'est donc pas incrémentielle.
- For content sources created with the seedlist provider option, a crawl on a remote system that supports incremental crawling, such as HCL Connections, behaves like a crawl on a Web Content Manager site.
- Pour afficher les informations d'état actualisées concernant la progression du processus de balayage, cliquez sur Actualiser. Les informations d'état suivantes sont alors mises à jour :
- Documents
- Indique le nombre de documents collectés jusque-là par le moteur de balayage à partir de la source sélectionnée.
- Heure d'exécution
- Indique le temps qu'a passé jusque-là le moteur de balayage sur la source de contenu concernée.
- Statut
- Indique si le balayage de la source de contenu est en cours ou inactif.
Vérification de l'adresse d'une source de contenu
Pour vérifier l'adresse URL d'une source de contenu, localisez la source de contenu et cliquez sur l'icône Vérifier l'adresse.
Si la source de contenu Web est disponible et si elle n'est pas bloquée par un fichier robots.txt, le portlet Gérer la recherche renvoie un message indiquant que la source de contenu est OK. Si la source de contenu n'est pas valide, si elle inaccessible ou bloquée, le portlet Gestion des recherches renvoie un message d'erreur.
Lorsque vous créez une nouvelle source de contenu, le portlet Gestion des ressources démarre la fonction Vérifier l'adresse.
Portées de recherche et liens personnalisés
- Un ou plusieurs emplacements de recherche ou sources de contenu.
- Les traits ou les caractéristiques du document, comme son type.
- Tous les hôtes
- Cette portée inclut tous les documents quelles que soient leurs fonctions et leur source de contenu.
- Contenu Web géré
- Cette portée limite la recherche aux sites qui ont été créés par Web Content Manager.
Vous pouvez ajouter vos propres portées de recherche personnalisées et une icône pour chaque portée. Vos icônes sont placées dans la liste de portées.
Vous pouvez également ajouter de nouveaux liens personnalisés vers les emplacements de recherche. Ce lien personnalisé inclut des liens vers des emplacements Web externes tels que Google ou Yahoo. La recherche globale du centre de recherche propose des liens personnalisés dans le menu de sélection des options de recherche.
Gestion des portées de recherche et des liens personnalisés
- Nouvelle portée
- Cliquez sur cette option pour créer une nouvelle portée de recherche. Pour plus d'informations, voir Création d'une nouvelle portée de recherche.
- Actualiser
- Cliquez sur cette option pour actualiser les informations relatives aux portées, par exemple, l'état des portées, ou aux mises à jour qu'un autre administrateur a effectuées sur les portées.
- Flèches de déplacement vers le bas et vers le haut
- Cliquez sur ces flèches pour déplacer les portées de recherche vers le haut ou vers le bas dans la liste. L'ordre choisi ici sera celui dans lequel les portées seront présentées aux utilisateurs dans le menu d'options de recherche du portlet Centre de recherche.
- Editer la portée de la recherche
- Cliquez sur cette icône pour travailler sur une portée de recherche ou la modifier. Pour plus de détails, reportez-vous à la section Edition d'une portée de recherche.
- Supprimer la portée de la recherche
- Cliquez sur cette icône pour supprimer une portée de recherche.
- Nouveau lien personnalisé
- Cliquez sur cette option pour ajouter un nouveau lien personnalisé. Pour plus d'informations, voir Ajout d'un nouveau lien personnalisé.
- Editer un lien personnalisé
- Cliquez sur cette icône pour travailler sur un lien personnalisé ou le modifier.
- Supprimer un lien personnalisé
- Cliquez sur cette icône pour supprimer un lien personnalisé.
Création d'une portée de recherche
- Nom de portée
- Zone obligatoire dans laquelle vous entrez un nom pour la nouvelle portée de recherche. Le nom doit être unique dans le portail en cours ou le portail virtuel.
- Description
- Zone facultative dans laquelle vous pouvez entrer une description de la portée.
- URL de l'icône personnalisée :
- Entrez l'emplacement d'URL où le portail pourra localiser l'icône de portée à afficher avec les options de recherche. If the icon file exists in the default icon directory
wps/images/icons, you need to type only the icon file name. S'il est situé à un autre endroit, entrez son chemin absolu suivi de son nom de fichier. Click Check icon path to ensure that the icon is available at the URL you specified. - Etat :
- Définissez l'état souhaité pour la portée de recherche. To make the scope available to users, set the status to Active.
- Visible pour les utilisateurs anonymes :
- Sélectionnez Oui pour permettre aux utilisateurs qui accèdent au portail sans authentification d'accéder à la portée. Sélectionnez Non pour permettre l'accès à la portée seulement aux utilisateurs authentifiés.
- Texte de requête (facultatif) :
- Entrez un texte de requête qui est ajouté de manière invisible à la suite de toutes les recherches lancées dans cette portée. Les recherches renvoient les résultats correspondant aux recherches que vous avez lancées et au texte que vous avez entré dans cette zone. Les deux ensembles de résultats ont le même ordre de priorité dans la liste de résultats. Le texte de requête saisi doit respecter la syntaxe de saisie d'une requête dans le centre de recherche. Pour plus d'informations sur ces règles de syntaxe, consultez l'aide du portlet Centre de recherche.
- Sélectionner les emplacements
- Sélectionnez l'emplacement requis. Seuls les documents présents dans ces emplacements de recherche ou ces sources de contenu sont inclus à la recherche lorsque l'utilisateur sélectionne cette portée pour leur recherche. Remarque : L'arborescence des emplacements affiche également les sources de contenu qui sont supprimées si elles contiennent toujours des documents dans la collection. Lorsqu'une source de contenu supprimée ne contient pas de documents, le démon de nettoyage la supprime de l'arborescence des emplacements.
Pour définir les noms et les descriptions de la portée de recherche, vous devez créer et enregistrer d'abord la portée. Then, locate the scope on the scopes list and edit the scope by clicking the Edit icon. L'option permettant de définir les noms et les descriptions dans d'autres environnements locaux est disponible uniquement sur la page Editer la portée de la recherche.
Ajout d'un lien personnalisé
- Statut :
- Définissez l'état du lien personnalisé. Pour permettre aux utilisateurs d'accéder lien, mettez-le à l'état actif.
- Nom du lien personnalisé :
- Zone obligatoire dans laquelle vous entrez un nom pour le nouveau lien personnalisé. The name must be unique within the current portal or virtual portal.
- Adresse URL du lien :
- Entrez l'URL du moteur de recherche Web cible pour le nouveau lien personnalisé. Cette zone est obligatoire. Veillez à utiliser le format correct, car les requêtes des utilisateurs seront ajoutées à la suite de cette URL. Pour connaître la syntaxe de l'interface Web à utiliser, voir la documentation du moteur de recherche cible. Dans certains cas, il est possible de déterminer la syntaxe d'interface Web en procédant comme suit :
- Lancez une recherche de texte distinctif (par exemple, un nom inhabituel) sur le moteur cible.
- Vérifiez la zone URL du navigateur et localisez votre chaîne de recherche. La partie de l'URL qui précède votre chaîne de recherche est très certainement l'URL de lien au moteur cible.
- Si votre chaîne de recherche ne figure pas à la fin de l'adresse URL, il peut être utile d'éditer cette dernière et d'en expérimenter différentes versions avec une chaîne de recherche ajoutée à la fin.
Voici des exemples de syntaxe d'interface Web :- Pour Google :
http://www.google.com/search?&q= - Pour Yahoo :
http://search.yahoo.com/search?p=
- URL de l'icône personnalisée :
- Entrez l'URL de l'emplacement où le portail pourra localiser l'icône à afficher avec le nouveau lien personnalisé. Click Check icon path to ensure that the icon is available at the URL you specified.
Pour définir les noms et les descriptions du lien personnalisé, vous devez créer et enregistrer d'abord le lien. Then, locate the custom link on the list, and edit the link by clicking the Edit icon. L'option permettant de définir les noms et les descriptions dans d'autres environnements locaux est disponible uniquement sur la page Edition du lien personnalisé.