Présentation du format de flux

RSS 2.0 est un sous-langage dérivé de XML. Les fichiers RSS doivent respecter la spécification XML 1.0 publiée par le World Wide Web Consortium (W3C). En général, les fichiers de flux RSS ont l'extension .rss ou .xml. Web Content Integrator n'impose pas de conventions d'appellation de fichier.

Format de fichier des flux RSS 2.0

Les options de type de support les plus utilisées sont "text/xml" et "application/rss+xml". Le choix du type de support détermine comment Web Content Integrator reconnaît le codage des caractères du flux. Si ce codage de caractères n'est pas reconnu correctement, Web Content Integrator génère des erreurs au cours de l'analyse syntaxique du flux. Il est donc important de choisir un type de support approprié à votre environnement.

Selon le prologue XML, un fichier RSS 2.0 commence par un élément <rss> unique. Cet élément possède un attribut obligatoire, "version", qui doit avoir la valeur "2.0". Le fichier doit aussi contenir un élément <channel> unique qui contient plusieurs sous-éléments qui fournissent des métadonnées sur l'ensemble du flux. L'élément <channel> doit contenir un ou plusieurs éléments <item>. Les éléments <item> contiennent également des sous-éléments qui fournissent des informations sur le contenu syndiqué. Par exemple:
<?xml version="1.0"?>
<rss version="2.0">
	<channel>
		<title>Sample Feed</title>
		<link>http://www.ibm.com/feeds/sample.rss</link>
		<description>An example RSS Feed</description>
		<lastBuildDate>Tue, 31 Oct 2006 10:31:00 EST</lastBuildDate>
		<item>
			<title>News Item Two</title>
			<link>http://www.ibm.com/news/two.htm</link>
			<description>
			This is a summary of the second news article
			</description>
			<pubDate> Tue, 31 Oct 2006 10:31:00 EST</pubDate>
		</item>
		<item>
			<title>News Item One</title>
			<link>http://www.ibm.com/news/one.htm</link>
			<description>
			This is a summary of the first news article.
			</description>
			<pubDate> Tue, 31 Oct 2006 10:30:00 EST</pubDate>
		</item>
		</channel>
	</rss>
Remarque : Si des données non-ascii sont utilisées dans un flux, le codage encoding="UTF-8" doit être spécifié dans le flux : <?xml version="1.0" encoding="UTF-8"?>

Eléments du niveau channel

Tout fichier de flux RSS doit contenir un seul élément "channel" (canal). Il existe plusieurs sous-éléments autorisés de l'élément channel qui fournissent de smétadonnées sur le niveau channel même. Les éléments suivants sont soit demandés soit utilisés par Web Content Integrator :

title
Cet élément indique le nom du flux. Il est exigé par la spécification RSS 2.0 mais n'est pas utilisé par Web Content Integrator.
link
Cet élément contient une adresse URL qui désigne la page Web contenant le flux. This element is required by the RSS 2.0 specification but is not used by the Web Content Integrator.
description
Cet élément contient une description courte du contenu du canal. This element is required by the RSS 2.0 specification but is not used by the Web Content Integrator.
lastBuildDate
Cet élément contient une date et un horodatage correspondant à la dernière modification du contenu du flux. Cette horodate, et toutes celles que le flux peut contenir, doit être au format RFC 822. Cet élément est facultatif pour la spécification RSS 2.0 mais certaines applications de lecture de flux peuvent en dépendre. Dans certains cas, Web Content Integrator enregistre la valeur de l'élément lastBuildDate puis la renvoie à l'créateur du flux lors de la requête suivante pour indiquer la version du flux qu'il vient de syndiquer.

Eléments du niveau item

Pour les besoins de Web Content Integrator, chaque objet présent dans le flux correspond à un type d'élément déterminé. Vous pouvez créer ou modifier les types d'éléments suivants via le flux :
  • Eléments de contenu
  • Zones de site
  • Taxinomies
  • Catégories
  • Composant

Les sous-éléments suivants sont soit demandés soit utilisés par Web Content Integrator :

title
La valeur de cet élément est stockée dans la zone du nom des objets de contenu Web. Pour les objets de contenu, cet élément fait partie de l'adresse URL de la page de contenu. Dans la mesure où il est repris dans la zone du nom des éléments de contenu Web, le titre ne peut contenir que des caractères alphanumériques (a-z, A-Z, 0-9), des espaces et les caractères suivants : $ - _ . ! ( ) , Ce sous-élément est obligatoire.
link
Indique l'adresse URL du contenu source. Dans certains cas, cet élément sera utilisé comme URL de base à partir de laquelle tous les liens relatifs imbriqués dans le contenu seront résolus.
description
La valeur de cet élément est stockée dans la zone de description des objets de contenu Web. Bien que la spécification RSS autorise le placement d'un code HTML avec caractères d'échappement ou codé par l'entité dans cet élément, la zone de description des objets de contenu Web n'est pas prévue pour stocker du code HTML. Conformément aux exigences de Web Content Integrator, cet élément ne doit contenir que du texte en clair.
pubDate
La valeur de cet élément doit être un horodatage RFC 822 représentant l'heure à laquelle l'objet a été ajouté ou mis à jour dans le flux. Web Content Integrator utilise cette date en combinaison avec l'élément <guid> pour déterminer s'il a déjà traité l'élément ou non. Chaque fois qu'un élément est mis à jour via le flux, la valeur de l'élément <pubDate> est mise à jour dans l'entrée de flux pour signaler la modification. Ce sous-élément est obligatoire.
guid
L'élément <guid> doit contenir un ID qui identifie l'objet de façon unique. Il s'agit souvent d'un ID unique provenant du système de gestion du contenu source. Web Content Integrator mappe cet ID avec l'ID Web Content Manager interne de l'objet. Ce mappage est nécessaire pour mettre à jour ou supprimer les objets qui existent déjà dans Web Content Manager. Cette zone distingue les minuscules des majuscules et peut contenir toute chaîne de caractères, à condition qu'elle ne comporte pas plus de 256 caractères. L'attribut isPermaLink est ignoré. Cet élément est obligatoire.
category
Un élément <category> contient une balise de métadonnées hiérarchiques qui décrit le contenu. La valeur de cet élément est convertie en taxinomie et en éléments de catégorie dans Web Content Manager. Si l'arborescence de catégories spécifiée dans l'élément <category> n'existe pas dans Web Content Manager, elle est automatiquement créée par Web Content Integrator pendant le traitement de l'entrée de flux. La spécification RSS 2.0 définit un attribut de domaine facultatif pour l'élément "category". Les producteurs de flux peuvent utiliser cet attribut pour stocker le nom de la bibliothèque de contenu Web dans laquelle l'arborescence des catégories doit être créée. Cet élément s'applique aux objets de contenu uniquement. Un élément <item> peut contenir plusieurs éléments de catégorie. Dans la mesure où il sera repris dans la zone du nom des taxinomies de contenu Web et des éléments de catégorie, le titre ne peut contenir que des caractères alphanumériques (a-z, A-Z, 0-9), des espaces et les caractères suivants : $ - _ . ! ( ) , Ce sous-élément est obligatoire.
author
Conformément à la spécification RSS 2.0, cet élément contient l'adresse électronique de l'auteur. La spécification n'autorise qu'un seul élément <author> par objet. En général, il désigne l'auteur de l'objet de contenu dans le système de gestion de contenu source. Web Content Integrator tente de résoudre l'adresse e-mail par le nom usuel d'un utilisateur du portail puis stocke le nom de cet utilisateur dans la zone "author" de l'objet Web Content Manager. Si le flux ne contient pas cet élément ou que l'adresse e-mail ne peut pas être résolue, le nom de l'utilisateur système est alors stocké dans la zone "author" de l'objet Web Content Manager.