Contenu non structuré et de site
Le contenu non structuré du site inclut les documents qui ne respectent pas un modèle de données spécifique, tels que les pièces jointes de produits contenues dans différents formats. Par exemple, le contenu tel que les manuels d'utilisation et les informations de garantie sont considérés comme du contenu non structuré. Ses éléments, sa construction et son organisation sont généralement inconnus et peuvent varier selon son type de fichier.
Même s'il se peut que la base de données HCL Commerce ne stocke pas le contenu non structuré, le contenu non structuré peut toujours être indexé et récupéré. Par exemple, lorsque le terme ordinateur portable est recherché, le résultat de recherche peut trouver du contenu non structuré, tel que les pièces jointes, au format .pdf ou .doc, qui contient le mot clé ordinateur portable.
Contenu de site
Lorsque vous utilisez des types d'index de recherche, le contenu de site est classé dans l'index de recherche d'entrée de catalogue.
Le contenu de site inclut les fichiers HTML et autres fichiers de site des magasins type HCL Commerce. Il est récupéré et exploré par l'explorateur de contenu de site.
HCL Commerce fournit des exemples de fichiers HTML statiques par défaut, que l'explorateur de contenu de site récupère et explore pour aider à remplir l'index de recherche de contenu de site. Vous pouvez configurer l'explorateur de contenu de site pour obtenir du contenu supplémentaire dans les magasins type HCL Commerce.
Pour plus d'informations, voir Indexation du contenu de site avec HCL Commerce Search.
Types de fichier pris en charge
HCL Commerce Search utilise des bibliothèques d'analyse pour détecter et extraire des métadonnées et du contenu de texte structuré à partir de documents.
- Microsoft Office
- Excel 97-2003 (.xls).
- JAVA
- Classes (.class).
- Documents et texte
- OpenDocument (.odt, odp, .ods).
- Tika 1.7
Schéma de contenu non structuré
HCL Commerce Search peut extraire directement des métadonnées et du contenu de la source de données non structurée. Les différents formats de données non structurées peuvent contenir des informations de métadonnées variables. Par exemple, les fichiers Microsoft Word contiennent des métadonnées telles que le créateur, l'entreprise et la date de création, tandis que les fichiers d'image JPEG contiennent des métadonnées telles que la largeur et la hauteur.
La cellule Solr fournit un mécanisme permettant d'ajouter un préfixe à la zone de métadonnées générée. Ce comportement exige que la conception de schéma typique du contenu non structuré contienne au moins une zone dynamique, tel que tika_*, pour stocker toutes les informations de métadonnées. La principale différence entre le contenu structuré et le contenu non structuré est que le nom et le nombre total de zones pour un document non structuré peuvent varier par rapport à un autre document non structuré.
HCL Commerce Search gère le contenu non structuré en demandant à Tika d'analyser les documents avant qu'ils ne soient traités. Ensuite, ils sont envoyés au serveur HCL Commerce Search pour une indexation éventuelle.
Modifications de schéma pour le contenu structuré et non structuré associé
Lorsque le contenu structuré contient une relation avec le contenu non structuré, il doit contenir une nouvelle zone dans le fichier structuré schema.xml pour représenter les informations non structurées. Cette nouvelle zone peut interroger les objets structurés par leur contenu non structuré.
<field name="unstructure" type="wc_text" indexed="true" stored="false" multiValued="true" />
Où le fragment stored="false" permet de ne pas récupérer le contenu non structuré par des requêtes.