Contenu non structuré et de site

HCL Commerce Search peut rechercher le contenu de site structuré et non structuré.

Le contenu non structuré du site inclut les documents qui ne respectent pas un modèle de données spécifique, tels que les pièces jointes de produits contenues dans différents formats. Par exemple, le contenu tel que les manuels d'utilisation et les informations de garantie sont considérés comme du contenu non structuré. Ses éléments, sa construction et son organisation sont généralement inconnus et peuvent varier selon son type de fichier.

Important : HCL Commerce Search les données non structurées déchiffrées par défaut. Autrement dit, le traitement des données chiffrées avec HCL Commerce Search n'est pas pris en charge.

Lorsque vous utilisez des types d'index de recherche, le contenu non structuré est classé dans l'index de recherche d'entrée de catalogue.

Même s'il se peut que la base de données HCL Commerce ne stocke pas le contenu non structuré, le contenu non structuré peut toujours être indexé et récupéré. Par exemple, lorsque le terme ordinateur portable est recherché, le résultat de recherche peut trouver du contenu non structuré, tel que les pièces jointes, au format .pdf ou .doc, qui contient le mot clé ordinateur portable.

Contenu de site

Lorsque vous utilisez des types d'index de recherche, le contenu de site est classé dans l'index de recherche d'entrée de catalogue.

Le contenu de site inclut les fichiers HTML et autres fichiers de site des magasins type HCL Commerce. Il est récupéré et exploré par l'explorateur de contenu de site.

HCL Commerce fournit des exemples de fichiers HTML statiques par défaut, que l'explorateur de contenu de site récupère et explore pour aider à remplir l'index de recherche de contenu de site. Vous pouvez configurer l'explorateur de contenu de site pour obtenir du contenu supplémentaire dans les magasins type HCL Commerce.

Pour plus d'informations, voir Indexation du contenu de site avec HCL Commerce Search.

Types de fichier pris en charge

HCL Commerce Search utilise des bibliothèques d'analyse pour détecter et extraire des métadonnées et du contenu de texte structuré à partir de documents.

Les types de fichiers suivants sont pris en charge par défaut :

Microsoft Office: Excel 97-2003 (.xls).; Excel 2007 (.xlsx).; Outlook documents (.msg).; PowerPoint 97-2003 (.ppt).; PowerPoint 2007 (.pptx).; Visio (.vsd).; Word 97-2003 (.doc).; Word 2007 (.docx).
JAVA: Classes (.class).; Fichiers JAR (.jar).
Documents et texte: OpenDocument (.odt, odp, .ods).; Texte normal (.txt).; Format PDF (.pdf); Format RTF (.rtf)

La version Tika suivante est fournie par défaut par HCL Commerce Search pour analyser les documents non structurés :

Tika 1.7

Schéma de contenu non structuré

HCL Commerce Search peut extraire directement des métadonnées et du contenu de la source de données non structurée. Les différents formats de données non structurées peuvent contenir des informations de métadonnées variables. Par exemple, les fichiers Microsoft Word contiennent des métadonnées telles que le créateur, l'entreprise et la date de création, tandis que les fichiers d'image JPEG contiennent des métadonnées telles que la largeur et la hauteur.

La cellule Solr fournit un mécanisme permettant d'ajouter un préfixe à la zone de métadonnées générée. Ce comportement exige que la conception de schéma typique du contenu non structuré contienne au moins une zone dynamique, tel que tika_*, pour stocker toutes les informations de métadonnées. La principale différence entre le contenu structuré et le contenu non structuré est que le nom et le nombre total de zones pour un document non structuré peuvent varier par rapport à un autre document non structuré.

HCL Commerce Search gère le contenu non structuré en demandant à Tika d'analyser les documents avant qu'ils ne soient traités. Ensuite, ils sont envoyés au serveur HCL Commerce Search pour une indexation éventuelle.

Modifications de schéma pour le contenu structuré et non structuré associé

Lorsque le contenu structuré contient une relation avec le contenu non structuré, il doit contenir une nouvelle zone dans le fichier structuré schema.xml pour représenter les informations non structurées. Cette nouvelle zone peut interroger les objets structurés par leur contenu non structuré.

Par exemple, lorsque vous recherchez des produits en fonction des informations de contenu des pièces jointes, la nouvelle définition de zone suivante se présente sous la forme suivante :


<field name="unstructure" type="wc_text" indexed="true" stored="false" multiValued="true" />

Où le fragment stored="false" permet de ne pas récupérer le contenu non structuré par des requêtes.