Définition des paramètres généraux d'une source de contenu

Set the general parameters for the content source by completing the entry fields and making your selections in the General Parameters tab.

Les zones et les options disponibles varient selon le type de source de contenu que vous sélectionnez :

Collecter les documents liés à cette URL

Entrez l'URL Web ou l'URL de portail requise dans cette zone obligatoire. Cette action détermine l'URL racine à partir de laquelle le moteur de balayage commence le balayage. Pour les sources de contenu de portail, cette zone est automatiquement renseignée par le portlet Gérer la recherche.

Remarque :

Pour les sites Web, vous devez entrer le nom complet, y compris HTTP://. Par exemple: http://www.cnn.com. Le fait d'entrer uniquement www.cnn.com génère une erreur.
Un problème de réacheminement de l'adresse URL peut provoquer un échec du moteur de recherche. Si ce problème ce produit, essayez de modifier cette zone, par exemple en remplaçant l'URL par l'URL de réacheminement.

Niveaux de liens à suivre

Pour le balayage des sites Web, cette option permet de déterminer le niveau de profondeur de balayage, c'est-à-dire le nombre maximal de niveaux de liens imbriqués que le moteur de balayage suit à partir de l'URL racine.

Nombre de documents liés à collecter

Pour le balayage des sites Web, cette option permet de déterminer le nombre maximal de documents indexés par le moteur de balayage pendant chaque session. Le nombre de documents indexés comprend les documents qui sont réindexés lorsque leur contenu a été modifié.

Interrompre la collecte après (en minutes) :

Cette option permet de définir la durée maximale en minutes d'une session de balayage du moteur de balayage pour les sites Web.

Remarque : Le délai d'attente fonctionne comme un délai approximatif. Elle peut être dépassée d'un certain pourcentage.

Interrompre l'extraction de documents après (en secondes)

Cette option indique la durée pendant laquelle le moteur de balayage tente d'extraire un document. Elle permet de définir le délai maximal en secondes pour terminer la phase initiale de connexion HTTP (réception des en-têtes HTTP). Ce délai doit être déterminé parce qu'il est utilisé pour empêcher le moteur de balayage d'être bloqué indéfiniment par une mauvais connexion. Toutefois, il permet au moteur de balayage de pouvoir extraire de gros fichiers qui mettent longtemps à charger (tels que des fichiers compressés).