Paramètres de configuration du service de recherche

Obtenez plus d'informations sur les paramètres du service de recherche de portail et leurs valeurs possibles.

Pour configurer un service de recherche de portail, utilisez les paramètres recensés ci-après. Pour plus de détails sur la définition des valeurs pour ces paramètres, consultez le document Gestion des services de recherche ou l'aide du portlet d'administration Gérer la recherche.
Notes for configuring a search service :
  • Sauf indication contraire, les valeurs définies pour les paramètres d'un service de recherche de portail s'appliquent à ce service ainsi qu'à toutes ses collections. Elles n'affectent pas les autres services de recherche du portail, ni leurs collections.
  • Sauf indication contraire, la modification de la valeur d'un paramètre s'applique également aux collections de recherche existantes et aux collections de recherche nouvellement créées. Certains paramètres affectent uniquement les collections de recherche nouvellement créées. Ces paramètres ne peuvent pas être mis à jour pour les collections de recherche existantes.
  • Le portlet d'administration de la recherche Gestion de la recherche affiche le service de recherche par défaut du portail et sa collection de recherche Contenu de portail, ou les autres collections, dans la langue par défaut du portail. Ces éléments ne sont pas répertoriés dans la langue sélectionnée par l'utilisateur comme langue de préférence ou celle définie dans son navigateur. Exemple : La langue du portail définie par défaut est l'anglais et l'utilisateur a sélectionné l'allemand comme langue préférée du portail ou comme langue du navigateur. Dans ce cas, le service de recherche par défaut du portail et ses collections sont affichés en anglais.
  • SOAP support for remote search services was deprecated with HCL Portal Version 8.0. EJB est toujours pris en charge.
  • Si vous supprimez un service de recherche, le portail ne supprime pas les collections de recherche associées à ce service de recherche. Supprimez les collections de recherche à l'aide du portlet d'administration Gestion de la recherche. Si vous supprimez le service de recherche par défaut, il est recréé lorsque vous redémarrez le portail.
Notes related to the search service configuration parameter list :
  • La liste de paramètres affichée dans le panneau Services de recherche du portlet Gérer la recherche et dans les informations suivantes, contient plusieurs paramètres se terminant par le suffixe _EXAMPLE. Ces exemples de paramètre ne sont pas utilisés par le portail. Ils sont indiqués à titre d'exemple pour le même paramètre, sans le suffixe _EXAMPLE. Ils indiquent un exemple de valeur que vous pouvez utiliser. Le fait de supprimer ces paramètres ou de modifier leur valeur est sans effet.
  • Si vous souhaitez définir un paramètre indiqué ici mais pas dans le portlet, ajoutez-le. Pour ajouter un paramètre, entrez celui-ci et la valeur correspondante dans les zones de saisie Clé de paramètre et Nouvelle valeur de paramètre, puis cliquez sur Ajouter le paramètre.
  • Dans la liste qui suit, l'abréviation pse utilisée dans les paramètres ou les valeurs désigne le moteur de recherche dans le portail (Portal Search Engine).
  • La liste est classée par ordre alphabétique. Dans le portlet, les paramètres peuvent apparaître dans un ordre différent.
boostingSettings
Utilisez ce paramètre pour indiquer à quelles zones de métadonnées est attribuée la pondération supplémentaire dans un score de rang global lors d'une recherche. Vous pouvez également indiquer dans quelle mesure les zones de métadonnées sélectionnées contribuent à la circulation de la pertinence lorsque vous effectuez une recherche. Indiquez les valeurs suivantes :
fieldBoost
Cette valeur définit quels champs de métadonnées ont un poids supplémentaire lorsque les résultats de la recherche sont renvoyés, et quel poids supplémentaire est donné aux champs indiqués. Spécifiez les attributs suivants :
champ
Champ de métadonnées de type chaîne sur lequel la recherche doit se concentrer. Certaines valeurs de zone par défaut ou communes sont title, description et keywords.
boost
Facteur multiplicateur de pertinence pour les occurrences trouvées dans le champ de métadonnées spécifié. Cette valeur peut être comprise entre 1.0 et 10.0. Toutefois, il est recommandé de définir une valeur comprise entre 1.0 et 3.0. La valeur 1.0 signifie l'absence de pertinence supplémentaire.
phraseBoost
Ce paramètre n'est pas obligatoire. Lorsqu'il est activé, le rang d'un document dans lequel les termes de recherche sont trouvés en tant que phrase ou expression est amélioré. Par exemple, si la recherche de "Jean Dupont" trouve un document dans lequel figure cette chaîne exacte (suite de mots dans le même ordre), ce document recevra un rang plus élevé. En revanche, le rang d'un document contenant la chaîne "Dupont Jean" ne sera pas amélioré.
L'exemple suivant illustre l'emploi des paramètres "boost".
{"phraseBoost": {"Enabled":"true"}, "fieldBoost": [{"field":"title", "boost": 3.0} , {"field":"description", "boost":3.0}, {"field":"keywords", "boost":2.0}]}
Important : Pensez à redémarrer le serveur Portal après avoir changé les valeurs de ces paramètres. Si vous avez changé vos objets de contenu afin de tester vos réglages, pour constater l'effet des nouveaux réglages, lancez un nouveau balayage du contenu. Retouchez les réglages pour trouver ceux qui conviennent le mieux à vos données de recherche.
CLEAN_UP_TIME_OF_DAY_HOURS
Heure à laquelle le portail effectue la maintenance des collections de recherche, pour supprimer les fichiers obsolètes et les liens rompus. Les valeurs possibles sont des entiers positifs de 0 à 24 pour toutes les heures de la journée. La valeur par défaut est 0 : elle permet de déclencher le nettoyage à minuit.
Remarque : Si vous modifiez la valeur, le changement ne sera appliqué qu'aux nouvelles collections du service de recherche. Vous ne pouvez pas mettre à jour ce paramètre pour les collections de recherche existantes.
DefaultCollectionsDirectory
Ce paramètre indique le répertoire par défaut contenant les collections de recherche. Si vous utilisez Recherche de portail en local, ce paramètre est facultatif. Si vous ne spécifiez pas de valeur pour ce paramètre, le répertoire de collections par défaut est wp_profile_root/PortalServer/collections. Si vous configurez un service de recherche distant, ce paramètre est obligatoire. Pour plus d'informations sur ce paramètre, reportez-vous à Configuration de l'emplacement par défaut pour les collections de documents.
DEFAULT_SEARCH_OPERATOR
Utilisez ce paramètre pour indiquer la manière dont le moteur de recherche Portal répond aux requêtes de recherche avec deux ou plusieurs termes. La valeur par défaut est or. Seul un terme de recherche doit se trouver dans le document pour que ce document soit affiché dans la liste de résultats de recherche. Remplacez cette valeur par and pour récupérer uniquement les documents qui contiennent tous les termes de recherche répertoriés dans la requête.
Remarque : Une fois que vous avez modifié ce paramètre, vous devez redémarrer le serveur de portail et le service de recherche distant.
CONFIG_FOLDER_PATH
Utilisez ce paramètre pour déterminer où sont stockées les données de configuration des collections de recherche. La valeur par défaut est wp_profile_root/CollectionsConfig.
EJB
Si vous configurez un service de recherche distant avec EJB, utilisez ce paramètre pour indiquer le nom EJB dans JNDI. Exemple de valeur : ejb/com/ibm/hrl/portlets/WsPse/WebScannerLiteEJBHome .

Si vous définissez ce paramètre, vous devez également définir le paramètre IIOP_URL.

EJB_Example
Ce paramètre est un exemple de valeur pour le paramètre EJB . Exemple de valeur : ejb/com/ibm/hrl/portlets/WsPse/WebScannerLiteEJBHome .
ExternalSecurityResolverUrl
Ce paramètre permet de configurer le service de recherche dans le portail à l'aide des informations relatives à un programme de résolution de la sécurité externe. Ce paramètre est requis pour que le filtrage de la sécurité des ressources HCL Connections fonctionne correctement. Une adresse URL de programme de résolution peut être, par exemple, https://host:port/ConnectionsResourceId/seedlist/authverify/getACLTokens, où ConnectionsResourceID correspond à n'importe quel identificateur de ressource HCL Connections.
HTTP_MAX_BODY_SIZE_MB
Utilisez ce paramètre pour limiter la taille des contenus extraits pendant l'exploration pour les fichiers d'application PDF ou Microsoft Word. L'unité est le Mo. La valeur par défaut est 20 Mo. Si un fichier dépasse cette taille, le document est tronqué, et Recherche de portail indexe du mieux possible la portion extraite. Toutefois, il est possible que l'indexation échoue sur les documents tronqués. Dans ce cas, le document n'apparaît pas dans les résultats de la recherche
Notes :
  1. Si vous modifiez la valeur, le changement ne sera appliqué qu'aux nouvelles collections du service de recherche. Vous ne pouvez pas mettre à jour ce paramètre pour les collections de recherche existantes.
  2. Il est possible que les services de conversion de documents ne parviennent pas à convertir le contenu des fichiers tronqués. Dans ce cas, le programme consigne une erreur dans le fichier SystemErr.log. Si le traçage est activé pour le portail, le portlet Recherche de portail consigne un message d'avertissement dans le fichier de journalisation du portail.
HTTP_MAX_SEEDLIST_SIZE_MB
Ce paramètre limite la taille du contenu extrait de votre propre site de portail pendant une exploration. Il détermine l'espace réservé au listage des ressources de site de portail ou aux ressources de contenu Web. L'unité est le Mo. La valeur par défaut est 4 Mo. Si une exploration dépasse la limite définie, il échoue et Recherche de portail consigne un message d'erreur. Dans ce cas, ou si les résultats de recherche retournés ne représentent pas la totalité des ressources du site de portail, augmentez cette valeur.
Remarque : Si vous modifiez la valeur, le changement ne sera appliqué qu'aux nouvelles collections du service de recherche. Vous ne pouvez pas mettre à jour ce paramètre pour les collections de recherche existantes.
HTTP_NON_APPL_MAX_BODY_SIZE_MB
Ce paramètre limite la taille du contenu de chaque page HTML extrait des sites Web des collections qui appartiennent à ce service de recherche. L'unité est le Mo. La valeur par défaut est 0.2 Mo. Cette valeur signifie que la quantité de contenu envoyé pour indexation est toujours constituée des premiers 0,2 Mo de texte.
Remarque : Si vous modifiez la valeur, le changement ne sera appliqué qu'aux nouvelles collections du service de recherche. Vous ne pouvez pas mettre à jour ce paramètre pour les collections de recherche existantes.
IIOP_URL
Si vous configurez un service de recherche distant avec EJB, utilisez ce paramètre pour indiquer l'adresse URL IIOP. Exemple de valeur : iiop://localhost:2811.
IIOP_URL_Example
Voici un exemple de valeur pour le paramètre IIOP_URL. Exemple de valeur : iiop://localhost:2811.
PSE_TYPE
Ce paramètre indique le type de service de recherche. Les valeurs possibles sont localhost, ejb et soap. La valeur par défaut est localhost pour le service de recherche local.

Si vous utilisez Recherche de portail en local, ce paramètre est facultatif.

Si vous définissez une recherche distante, ce paramètre est obligatoire. Dans ce cas, indiquez le type de service distant que vous utilisez, à savoir EJB ou SOAP. Si vous spécifiez ejb, vous devez également indiquer les valeurs des paramètres EJB et IIOP_URL. Si vous spécifiez soap, vous devez également indiquer la valeur du paramètre SOAP_URL.

SEARCH_SECURITY_MODE
Ce paramètre définit la mise en application du contrôle d'accès pendant la recherche. Trois modes de filtrage sont pris en charge. Indiquez une des valeurs suivantes, en fonction du mode de filtrage que vous voulez utiliser :
SECURITY_MODE_PREFILTER
Indiquez cette valeur pour utiliser le mode de préfiltrage. Le préfiltrage constitue la méthode de filtrage la plus rapide car il est effectué au niveau de l'index de recherche. L'autre avantage de ce mode est la possibilité de rechercher des sources de contenu sécurisées distantes à partir du portail. Cependant, il est basé uniquement sur l'index de recherche. La liste des résultats de la recherche peut être temporairement incohérente par rapport aux droits d'accès des utilisateurs si ces droits ont été modifiés après le dernier balayage :
Exemple 1 :
Les droits d'accès d'un utilisateur ont été limités après le dernier balayage. Dans ce cas, il se peut que l'utilisateur ne puisse plus accéder aux résultats de la recherche affichés. Lorsque l'utilisateur clique sur un lien de ce type dans la liste des résultats de la recherche, il ne peut pas accéder au document.
Exemple 2 :
Des droits d'accès aux documents ont été accordés à un utilisateur après le dernier balayage. Dans ce cas, l'utilisateur ne pourra afficher ces documents dans les résultats de la recherche qu'à l'issue du balayage suivant.
Remarque : Si le service de recherche contient un contenu Portal (collection contenant une source de contenu de type Portal site), ce mode de sécurité n'est pas valide et ne doit pas être utilisé.
SECURITY_MODE_POSTFILTER
Post-filtrage
Indiquez cette valeur pour utiliser le mode post-filtrage. Le post-filtrage est la méthode de filtrage la plus sécurisée mais aussi la plus coûteuse. Il vérifie les autorisations d'accès en temps réel pour chaque résultat de recherche renvoyé par rapport au contrôle d'accès au portail. Vous pouvez par conséquent l'utiliser uniquement pour les sources de contenu locales. Ce mode de filtrage était le seul mode disponible avant Portal V 7.0.
SECURITY_MODE_PRE_POST_FILTER
Pré-post-filtrage
Indiquez cette valeur pour utiliser le mode pré-post-filtrage. Il s'agit de la valeur par défaut. Le pré-post-filtrage associe les deux modes de filtrage mentionnés précédemment. Il s'agit d'une méthode équilibrée pour le contrôle d'accès appliqué. Il filtre les documents les moins pertinents lors de la phase de préfiltrage en fonction de l'index de recherche. Ce comportement entraîne moins de rejets lors de la phase de post-filtrage. Etant donné que le mode pré-post-filtrage utilise le post-filtrage, vous pouvez l'appliquer uniquement pour les sources de contenu locales. Le préfiltrage étant utilisé, les listes de résultats de la recherche peuvent être temporairement incohérentes par rapport aux droits d'accès des utilisateurs jusqu'à l'issue du balayage suivant.
SEEDLIST_PAGE_TIMEOUT
Utilisez ce paramètre pour augmenter le délai d'extraction de la page seedlist. La valeur est exprimée en secondes. La valeur par défaut est de 150 secondes. Cette valeur signifie que la recherche du portail tente d'extraire l'URL principale de seedlist pendant 150 secondes.
Remarque : Si vous modifiez la valeur, le changement ne sera appliqué qu'aux nouvelles collections du service de recherche. Vous ne pouvez pas mettre à jour ce paramètre pour les collections de recherche existantes.
SOAP_URL
Si vous configurez un service de recherche distant avec SOAP, utilisez ce paramètre pour indiquer l'adresse URL SOAP. Exemple de valeur : http://localhost:10000/WebScannerSOAP/servlet/rpcrouter.
SOAP_URL_Example
Voici un exemple de valeur pour le paramètre SOAP_URL. Exemple de valeur : http://localhost:10000/WebScannerSOAP/servlet/rpcrouter.
dateFieldPattern
Par défaut, la recherche dans le portail ne sait pas si une zone contient ou non une date. Utilisez ce paramètre pour activer la recherche de documents par date. Une expression régulière est utilisée pour vérifier si une zone doit être gérée ou non en tant que zone de date. Le pattern par défaut est ".*date$" et correspond à toutes les zones qui se terminent par le mot date.
Remarque : Une fois que vous avez modifié ce paramètre, vous devez redémarrer le serveur de portail et le service de recherche distant.
dateFormat
Spécifiez le format qui est utilisé pour les requêtes de date. La valeur par défaut est yyyy-MM-dd. Vous pouvez spécifier un autre format à l'aide de la syntaxe de date Java, mais les espaces ne sont pas admis car leur utilisation provoquerait la rupture des requêtes de plages de dates. Prenez soin de communiquer les modifications du format aux utilisateurs de la recherche. Pour vérifier que le format est pris en charge, vous pouvez activer le traçage pour com.ibm.lotus.search.index.lucene.search.PseSiapiQueryParser=all et effectuer une série de recherches. N'oubliez pas de désactiver la trace après avoir vérifié que le format est pris en charge.
Remarque : Une fois que vous avez modifié ce paramètre, vous devez redémarrer le serveur de portail et le service de recherche distant.
dateTimeFormat
Spécifiez le format qui est utilisé pour les requêtes de date avec une plage horaire. La valeur par défaut est yyyy-MM-dd,hh:mm. Vous pouvez spécifier un autre format à l'aide de la syntaxe de date Java, mais les espaces ne sont pas admis car leur utilisation provoquerait la rupture des requêtes de plages de dates. Prenez soin de communiquer les modifications du format aux utilisateurs de la recherche. Les lettres utilisées généralement dans le format sont les suivantes :
aaaa
Indique l'année.
MM
Indique la valeur numérique d'un mois de l'année. Par exemple, le mois de décembre est représenté par la valeur 12.
jj
Indique la valeur numérique d'un jour du mois.
hh
Indique l'heure du jour. Par défaut, l'heure est spécifiée au format 24 heures. Par exemple, 18 indique 6 heures de l'après-midi. Toutefois, vous pouvez indiquer un format personnalisé sur 12 heures si vous le souhaitez.
mm
Indique la minute de l'heure.
ss
Indique la seconde de la minute.
Z
Indique le fuseau horaire. Par exemple, -0800.
To verify that the format is supported, you can enable tracing for com.ibm.lotus.search.index.lucene.search.PseSiapiQueryParser=all and then perform a series of searches. N'oubliez pas de désactiver la trace après avoir vérifié que le format est pris en charge.
Remarque : Une fois que vous avez modifié ce paramètre, vous devez redémarrer le serveur de portail et le service de recherche distant.
dateFormatLocale
Ce paramètre indique l'environnement local utilisé lors de l'analyse syntaxique d'une date. L'environnement local par défaut du portail est utilisé comme valeur par défaut.
Remarque : Une fois que vous avez modifié ce paramètre, vous devez redémarrer le serveur de portail et le service de recherche distant.

Les paramètres suivants sont réservés à une utilisation interne. Ne modifiez pas leurs valeurs.

CONTENT_SOURCE_TYPE_FEATURE_NAME
Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. La valeur par défaut est ContentSourceType.
CONTENT_SOURCE_TYPE_FEATURE_VAL_PORTAL
Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. La valeur par défaut est Portal.
CONTENT_SOURCE_TYPE_FEATURE_VAL_WEB
Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. La valeur par défaut est Web.
SecurityResolverId
Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. La valeur par défaut est com.ibm.lotus.search.plugins.provider.core.PortalSecurityResolverFactory.
SetProperties
Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. Les valeurs possibles sont on et off. La valeur par défaut est on.
startup
Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. La valeur par défaut est false.
VALIDATE_COOKIE
Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. La valeur par défaut est 123.
WORK_MANAGER
Vous pouvez utiliser ce paramètre pour indiquer le gestionnaire de travail. Ce paramètre est réservé à une utilisation interne. Ne modifiez pas sa valeur. La valeur par défaut est wps/searchIndexWM.
WORK_MANAGER_DEPLOY
Voici un exemple du paramètre WORK_MANAGER déployé. Exemple de valeur : wps/searchIndexWM.
WORK_MANAGER_NATIVE
Voici un exemple du paramètre WORK_MANAGER pour les unités d'exécution natives, à des fins de débogage uniquement. Exemple de valeur : force.hrl.work.manager.use.native.threads.
WORK_MANAGER_NAME
Ce paramètre indique le nom JNDI du gestionnaire de travaux utilisé par Recherche de portail.