Création d'une source de contenu

Lorsque vous créez une nouvelle source de contenu pour une collection de recherche, elle est analysée et la collection de recherche est complétée par les documents provenant de cette source de contenu. Vous pouvez identifier l'emplacement où l'index recherche et les informations qu'il recherche.

Procédure

  1. Cliquez sur Nouvelle source de contenu sur la page d'ouverture des collections de recherche. Le portlet Gérer la recherche affiche la page Créer une nouvelle source de contenu.
  2. Dans le menu Type de source de contenu, effectuez une sélection parmi les options suivantes :
    Site Web
    Sélectionnez cette option pour tous les sites distants qui incluent les sites Web et les sites de portail distants. Seules les pages anonymes peuvent être indexées et faire l'objet d'une recherche sur les sites de portails distants.
    Fournisseur de la liste de départ
    Sélectionnez cette option lorsque le moteur de balayage utilise la liste de départ en tant que contenu source pour la collection.
    Site de portail
    Sélectionnez cette option lorsque la source de contenu est votre site de portail local.
    Remarque : Lorsque vous créez une source de contenu du site de portail dans un environnement de cluster configuré avec SSL, vous devez fournir des informations sur la sécurité de la cellule du serveur Web et des noeuds. Par exemple, dans un cluster avec l'URL https://web_server/wps/portal, l'URL de noeud principal http://node_1:10039/wps/portal et l'URL de noeud secondaire http://node_2:10050/wps/portal, vous devez spécifier l'ID utilisateur et le mot de passe du serveur Web et des deux noeuds 1 et 2.
    Site Web Content Manager
    Pour mettre une source de contenu de ce type à la disposition de la fonction de recherche du portail, vous devez la créer dans le portlet de création de Web Content Manager. Sélectionnez l'option appropriée pour la rendre disponible pour les recherches et spécifiez la collection de recherche à laquelle elle appartient. Une fois le site Web Content Manager créé, il est ajouté à la liste des sources de contenu de la collection de recherche que vous avez spécifiée. Pour plus d'informations sur la génération de l'URL pour la source de contenu, voir API de service REST du format de liste de départ 1.0API de service REST du format de liste de départ 1.0.

    Votre sélection détermine certaines zones de saisie et options disponibles pour créer la source de contenu. Par exemple, l'option Obeyrobots.text sous l'onglet Paramètres avancés est disponible uniquement si vous sélectionnez Site Web comme type de source de contenu.

    Pour certaines sources de contenu il pourra être nécessaire de saisir des données sensibles, telles que l'ID utilisateur et le mot de passe. Par exemple, cette action s'applique aux sites HCL Portal sécurisés. Pour assurer le chiffrement de ces données sensibles lors de leur stockage, mettez à jour et exécutez le fichier searchsecret.xml à l'aide de l'interface de configuration XML avant de créer la source de contenu.

  3. Définissez les paramètres et configurez la source de contenu à partir des onglets.
    1. Avant de lancer le balayage, définissez la langue préférée de son ID utilisateur pour qu'elle corresponde à celle de la collection de recherche explorée.
    2. Sur l'onglet Paramètres généraux, vous devez définir l'URL pour la source de contenu dans la zone Collecter les documents liés à partir de cette URL. Le moteur de recherche a besoin de cette URL pour pouvoir effectuer son exploration. Pour plus d'informations sur la génération de l'URL pour la source de contenu, voir API de service REST du format de liste de départ 1.0 dans la documentation Web Content Manager .
      Remarque : Un problème de réacheminement de l'adresse URL peut provoquer un échec du moteur de recherche. En cas d'échec, essayez de modifier cette zone. Par exemple, remplacez l'URL par l'URL de réacheminement.
    3. Sur l'onglet Paramètres généraux, vous pouvez définir un délai d'attente pour balayer une source de contenu de site Web à l'aide de l'option Arrêt de la collecte après (minutes). Le délai d'attente ne fonctionne que pour les sources de contenu de site Web. Il s'agit d'une durée approximative qui peut être dépassée d'un certain pourcentage. L'action de balayage est insérée dans une file d'attente. Par conséquent, il peut s'écouler plusieurs minutes avant son exécution et le démarrage du compteur horaire.
    4. Sur l'onglet Paramètre avancé, la zone d'entrée Codage de caractères par défaut contient la valeur par défaut initiale windows-1252, quelle que soit la valeur affectée au paramètre Langue par défaut du portail. Pour accéder à la langue par défaut du portail, cliquez sur l'icône Menu Administration. Cliquez ensuite sur Paramètres de portail > Paramètres généraux. Entrez le codage de caractère par défaut requis selon la langue de votre portail. Sinon, les documents risquent de ne pas être affichés correctement dans Parcourir les documents.
    5. Sur l'onglet Planificateurs, définissez une planification de balayage. Le balayage commence à l'heure suivante la plus proche possible que vous indiquez.
  4. Cliquez sur Créer.