Balayage d'un site externe à l'aide d'un fournisseur de liste de départ

Le moteur de balayage de liste d'origine est un moteur de balayage HTTP spécial pouvant être utilisé afin d'explorer des sites externes qui publient leur contenu sous format de liste d'origine. Ce format est basé ATOM/XML et destiné spécifiquement à la publication de contenu d'application, y compris toutes ses métadonnées. Pour un balayage plus performant, ce format permet la publication des seuls contenus mis à jour depuis la dernière session d'analyse. Vous pouvez configurer le moteur de balayage de liste d'origine avec des paramètres généraux, des filtres et des planificateurs, puis lancer le moteur de balayage.

Avant de commencer

Avant de configurer le moteur de balayage de liste d'origine, réunissez les informations suivantes :
  • URL racine, c'est à dire l'URL de la page de la liste d'origine.

    Il s'agit d'une page ATOM/XML spéciale contenant des métadonnées qui dirigent le moteur de balayage vers les liens effectifs à extraire et à indexer pour permettre une recherche ultérieure. Cette page contient également des métadonnées au niveau du document qui sont stockées en même temps que le document lui-même dans l'index de recherche. Pour permettre une recherche dans les résultats du moteur de balayage de liste d'origine, vous devez lui indiquer l'URL d'une page contenant une liste d'origine. Le moteur de recherche extrait la liste d'origine et balaye les pages qui y sont mentionnées.

  • ID et mot de passe utilisateur, qui sont utilisés par le moteur de balayage pour authentifier la page de liste d'origine.

Pourquoi et quand exécuter cette tâche

Pour configurer et créer le moteur de balayage de liste d'origine :

Procédure

  1. Cliquez sur Gérer la recherche > Services de recherche.
  2. Cliquez sur le service de recherche de portail approprié.
  3. Cliquez sur le nom d'une collection de recherche existante ou créez-en une nouvelle.
  4. Click New Content Source.
  5. Cliquez sur l'icône de menu déroulant en regard de Type de la source de contenu puis sur Fournisseur de la liste de départ pour indiquer que la source de contenu est une liste de départ.
  6. Sous les onglets Paramètres généraux, Paramètres avancés, Planificateurs et Sécurité, renseignez les zones et sélectionnez les options selon les besoins.
    Pour plus d'informations, reportez-vous à la rubrique Gestion et administration de la recherche du portail.
  7. Cliquez sur Créer.
    Ceci entraîne la création de la source de contenu.
  8. Pour exécuter le moteur de balayage, cliquez sur son icône de démarrage en regard de la source de contenu sur la page Sources de contenu.
    Si vous avez défini un planning sous l'onglet Planificateurs, le moteur de balayage sera lancé à la prochaine heure possible spécifiée.