Composants communs de groupes de processus NiFi

Un ensemble commun de processeurs NiFi est utilisé pour effectuer diverses tâches de traitement dans des groupes de processus HCL Commerce NiFi.

Les groupes de processus simplifient les flux de données complexes en vous permettant de regrouper des composants, tels que des processeurs, dans leur propre zone de conception intégrée dans l'interface utilisateur NiFi. HCL Commerce Search est fourni avec un ensemble de composants par défaut couramment utilisés dans les groupes de processus Ingest. Ces processeurs sont décrits ci-dessous, ainsi que l'ensemble le plus commun de processeurs fournis par NiFi qui sont utilisés.

Pour plus d'informations sur les groupes de processus, voir Anatomie d'un groupe de processus dans la documentation Apache NiFi.

Processeurs fournis par HCL

ComposeDatabaseSQL

Généralement utilisé avant ExecuteSQL. Son objectif est de définir l'instruction SQL à utiliser avec ExecuteSQL, ainsi que d'agir en tant qu'exit utilisateur pour un profil Ingest facultatif afin d'effectuer une modification supplémentaire pour le SQL donné avant l'envoi à ExecuteSQL.

AnalyzeExecuteSQLRecordResponse

Généralement utilisé après ExecuteSQL pour analyser la réponse de requête de base de données. Il possède deux propriétés : Type de relation et Index d'actualisation.

Type de relation : Le type de relation définit si la connexion entrante est à l'état "réussite" ou "échec". Il existe une logique dédiée au sein de ce processeur pour classifier la réponse comme un échec réel, une réussite ou un vide.
Index d'actualisation : L'index d'actualisation est une fonction facultative qui permet à l'index Elasticsearch d'effectuer une opération d'actualisation immédiatement après le traitement de chaque page de base de données.

RouteOnCatalog

Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour déterminer le nombre de fichiers de flux supplémentaires à envoyer au flux secondaire. Un "flux secondaire" dans NiFi est un flux de traitement facultatif alternatif dans un pipeline d'ingestion utilisé avec les profils Ingest pour exécuter des tâches ETL personnalisées. Ce processeur utilise trois propriétés pour contrôler les flux secondaires, qui sont basés sur Catalogue principal, Catalogue par défaut et Autres catalogues.

Pour plus d'informations, voir Personnalisation de profils ingest.

FilterOnCatalog

Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour s'assurer que les fichiers de flux avec les propriétés de catalogue souhaitées sont envoyés au flux secondaire. Ce processeur utilise trois propriétés pour contrôler ce qui peut et ne peut pas être routé vers des flux secondaires : Catalogue principal, Catalogue par défaut et Autres catalogues.

RouteOnLanguage

Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour déterminer le nombre de fichiers de flux supplémentaires à envoyer au flux secondaire. Ce processeur utilise deux propriétés pour contrôler les flux secondaires, qui sont basés sur la langue par défaut et les autres langues prises en charge.

FilterOnLanguage

Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour s'assurer que les fichiers de flux avec les propriétés de langue souhaitées sont envoyés au flux secondaire. Ce processeur utilise deux propriétés pour contrôler ce qui peut et ne peut pas être routé vers les flux secondaires : Langue par défaut et autres langues prises en charge.

TrackBulkRequest

Utilisé uniquement au début, immédiatement après avoir accédé à l'un des services en masse. TrackBulkRequest enregistre des métadonnées supplémentaires sur chaque fichier de flux entrant, pour suivre son état et le temps total passé dans ce service en masse. Le processeur possède une propriété, Contrôle du taux de flux de données, qui peut être utilisée pour activer ou désactiver le contrôle du débit par rapport au flux de données entrant. Le contrôle des débits peut être utilisé pour ralentir le flux de données jusqu'à atteindre le débit spécifié afin d'éviter de surcharger Elasticsearch. En outre, ce processeur sert également d'exit utilisateur pour un profil Ingest facultatif afin d'effectuer une personnalisation supplémentaire du flux de données entrant.

AnalyzeBulkResponse

Utilisé uniquement à la fin d'un service en masse. Ses principales utilisations sont d'analyser la réponse Elasticsearch Bulk pour déterminer les erreurs et d'agir en tant qu'exit utilisateur pour un profil Ingest facultatif afin d'effectuer une personnalisation de post-traitement supplémentaire du flux de données. Ce processeur détecte également le dernier fichier de flux d'une étape et envoie un signal d'édition au lien d'attente correspondant de cette étape dans le flux principal, pour lui permettre de passer à l'étape suivante.

ScrollElasticsearch

Faites défiler jusqu'à atteindre un ensemble de résultats Elasticsearch donné.

ComposeIndexSchema

Appel d'un profil Ingest donné (s'il est défini) pour personnaliser un schéma d'index existant pour Elasticsearch.

SerializeDocument

Recherchez tous les enregistrements (bidimensionnels) en série et convertissez-les au format (à dimension unique) pour qu'ils soient traités par un processeur personnalisé en aval.

MapIndexFieldsFromDatabase

Mappage des colonnes de tableau de base de données personnalisées dans les zones de schéma d'index correspondantes pour l'opération Ingest.

PublishEvent

Publiez le contenu du fichier de flux en cours en tant qu'événement dans HCL Cache.

SubscribeEvent

Evénements d'abonnement générés à partir de HCL Cache.

UpdateDocumentCounter

Augmentez ou réduisez un compteur HCL Cache donné avec la valeur delta fournie. Ce processeur est principalement utilisé avec les compteurs d'événements pour le suivi des flux de données à l'intérieur de NiFi.

TrackDocument

Enregistrez les métadonnées à utiliser pour suivre le flux de données dans l'étape Ingest en cours, telle que Product Stage 1a - Create Product Documents.

RetryDocument

Réitérez la partie sélectionnée d'un fichier de flux de demande en masse donné dans sa file d'attente.

Processeurs fournis par NiFi

ExecuteSQL: Exécute l'instruction SQL fournie. Pour plus d'informations, voir ExecuteSQL dans la documentation Apache NiFi.
ControlRate: Contrôle la vitesse à laquelle les données sont transférées aux processeurs de suivi. Pour plus d'informations, voir ControlRate dans la documentation Apache NiFi.
InvokeHTTP: Principalement utilisé pour interagir avec un nœud final HTTP Elasticsearch configurable. Pour plus d'informations, voir InvokeHTTP dans la documentation Apache NiFi.
RetryFlowFile: Principalement utilisé, avec le processeur RetryDocument par défaut, pour effectuer des opérations de relance basées sur des règles. Pour plus d'informations, voir InvokeHTTP dans la documentation Apache NiFi.