Composants communs de groupes de processus NiFi
Un ensemble commun de processeurs NiFi est utilisé pour effectuer diverses tâches de traitement dans des groupes de processus HCL Commerce NiFi.
Les groupes de processus simplifient les flux de données complexes en vous permettant de regrouper des composants, tels que des processeurs, dans leur propre zone de conception intégrée dans l'interface utilisateur NiFi. HCL Commerce Search est fourni avec un ensemble de composants par défaut couramment utilisés dans les groupes de processus Ingest. Ces processeurs sont décrits ci-dessous, ainsi que l'ensemble le plus commun de processeurs fournis par NiFi qui sont utilisés.
Pour plus d'informations sur les groupes de processus, voir Anatomie d'un groupe de processus dans la documentation Apache NiFi.
Processeurs fournis par HCL
- ComposeDatabaseSQL
- Généralement utilisé avant ExecuteSQL. Son objectif est de définir l'instruction SQL à utiliser avec ExecuteSQL, ainsi que d'agir en tant qu'exit utilisateur pour un profil Ingest facultatif afin d'effectuer une modification supplémentaire pour le SQL donné avant l'envoi à ExecuteSQL.
- AnalyzeExecuteSQLRecordResponse
- Généralement utilisé après ExecuteSQL pour analyser la réponse de requête de base de données. Il possède deux propriétés : Type de relation et Index d'actualisation.
- Type de relation : Le type de relation définit si la connexion entrante est à l'état "réussite" ou "échec". Il existe une logique dédiée au sein de ce processeur pour classifier la réponse comme un échec réel, une réussite ou un vide.
- Index d'actualisation : L'index d'actualisation est une fonction facultative qui permet à l'index Elasticsearch d'effectuer une opération d'actualisation immédiatement après le traitement de chaque page de base de données.
- RouteOnCatalog
- Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour déterminer le nombre de fichiers de flux supplémentaires à envoyer au flux secondaire. Un "flux secondaire" dans NiFi est un flux de traitement facultatif alternatif dans un pipeline d'ingestion utilisé avec les profils Ingest pour exécuter des tâches ETL personnalisées. Ce processeur utilise trois propriétés pour contrôler les flux secondaires, qui sont basés sur Catalogue principal, Catalogue par défaut et Autres catalogues.
Pour plus d'informations, voir Personnalisation de profils ingest.
- FilterOnCatalog
- Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour s'assurer que les fichiers de flux avec les propriétés de catalogue souhaitées sont envoyés au flux secondaire. Ce processeur utilise trois propriétés pour contrôler ce qui peut et ne peut pas être routé vers des flux secondaires : Catalogue principal, Catalogue par défaut et Autres catalogues.
- RouteOnLanguage
- Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour déterminer le nombre de fichiers de flux supplémentaires à envoyer au flux secondaire. Ce processeur utilise deux propriétés pour contrôler les flux secondaires, qui sont basés sur la langue par défaut et les autres langues prises en charge.
- FilterOnLanguage
- Utilisé uniquement à la jonction du flux de traitement principal à chaque étape de flux, pour s'assurer que les fichiers de flux avec les propriétés de langue souhaitées sont envoyés au flux secondaire. Ce processeur utilise deux propriétés pour contrôler ce qui peut et ne peut pas être routé vers les flux secondaires : Langue par défaut et autres langues prises en charge.
- TrackBulkRequest
- Utilisé uniquement au début, immédiatement après avoir accédé à l'un des services en masse. TrackBulkRequest enregistre des métadonnées supplémentaires sur chaque fichier de flux entrant, pour suivre son état et le temps total passé dans ce service en masse. Le processeur possède une propriété, Contrôle du taux de flux de données, qui peut être utilisée pour activer ou désactiver le contrôle du débit par rapport au flux de données entrant. Le contrôle des débits peut être utilisé pour ralentir le flux de données jusqu'à atteindre le débit spécifié afin d'éviter de surcharger Elasticsearch. En outre, ce processeur sert également d'exit utilisateur pour un profil Ingest facultatif afin d'effectuer une personnalisation supplémentaire du flux de données entrant.
- AnalyzeBulkResponse
- Utilisé uniquement à la fin d'un service en masse. Ses principales utilisations sont d'analyser la réponse Elasticsearch Bulk pour déterminer les erreurs et d'agir en tant qu'exit utilisateur pour un profil Ingest facultatif afin d'effectuer une personnalisation de post-traitement supplémentaire du flux de données. Ce processeur détecte également le dernier fichier de flux d'une étape et envoie un signal d'édition au lien d'attente correspondant de cette étape dans le flux principal, pour lui permettre de passer à l'étape suivante.
- ScrollElasticsearch
- Faites défiler jusqu'à atteindre un ensemble de résultats Elasticsearch donné.
- ComposeIndexSchema
- Appel d'un profil Ingest donné (s'il est défini) pour personnaliser un schéma d'index existant pour Elasticsearch.
- SerializeDocument
- Recherchez tous les enregistrements (bidimensionnels) en série et convertissez-les au format (à dimension unique) pour qu'ils soient traités par un processeur personnalisé en aval.
- MapIndexFieldsFromDatabase
- Mappage des colonnes de tableau de base de données personnalisées dans les zones de schéma d'index correspondantes pour l'opération Ingest.
- PublishEvent
- Publiez le contenu du fichier de flux en cours en tant qu'événement dans HCL Cache.
- SubscribeEvent
- Evénements d'abonnement générés à partir de HCL Cache.
- UpdateDocumentCounter
- Augmentez ou réduisez un compteur HCL Cache donné avec la valeur delta fournie. Ce processeur est principalement utilisé avec les compteurs d'événements pour le suivi des flux de données à l'intérieur de NiFi.
- TrackDocument
- Enregistrez les métadonnées à utiliser pour suivre le flux de données dans l'étape Ingest en cours, telle que
Product Stage 1a - Create Product Documents. - RetryDocument
- Réitérez la partie sélectionnée d'un fichier de flux de demande en masse donné dans sa file d'attente.
Processeurs fournis par NiFi
- ExecuteSQL
- Exécute l'instruction SQL fournie. Pour plus d'informations, voir ExecuteSQL dans la documentation Apache NiFi.
- ControlRate
- Contrôle la vitesse à laquelle les données sont transférées aux processeurs de suivi. Pour plus d'informations, voir ControlRate dans la documentation Apache NiFi.
- InvokeHTTP
- Principalement utilisé pour interagir avec un nœud final HTTP Elasticsearch configurable. Pour plus d'informations, voir InvokeHTTP dans la documentation Apache NiFi.
- RetryFlowFile
- Principalement utilisé, avec le processeur RetryDocument par défaut, pour effectuer des opérations de relance basées sur des règles. Pour plus d'informations, voir InvokeHTTP dans la documentation Apache NiFi.