Terminologie et ressources de Hive Hadoop
Pour comprendre l'intégration entre Hive Hadoop et Unica Campaign, reportez-vous à la liste des définitions et des liens vers les ressources en ligne.
Termes
Apache Hadoop® est une infrastructure logicielle écrite en Java™ pour le stockage et le traitement distribué de très grands ensembles de données sur des ordinateurs standard en cluster.
Apache Hive est une infrastructure d'entrepôt de données superposé à Hadoop pour permettre l'interrogation et la gestion des ensembles de données volumineux qui résident dans les espaces de stockage distribués. Hive fournit un mécanisme permettant de projeter une structure sur ces données et de les interroger à l'aide d'un langage semblable à SQL appelé HiveQL.
Apache HBase™ est une base de données open source non relationnelle distribuée écrite en Java. Elle s'exécute sur HDFS et fournit des fonctions du type BigTable à Hadoop.
Hadoop Distributed File System (HDFS™) est un système de fichiers distribué qui fonctionne sur des machines standard. Il est conçu pour stocker de manière fiable des fichiers de très grande taille sur des machines formant un cluster étendu.
Hue est une interface Web pour analyser les données à l'aide d'Apache Hadoop.
HiveQL (ou HQL) est le langage de requête Hive.
MapReduce est un modèle de programmation et l'implémentation associée dédiés au traitement et à la génération d'ensembles de données volumineux à l'aide d'un algorithme parallèle distribué sur un cluster. MapReduce est le cœur de Hadoop®. C'est ce paradigme de programmation qui permet une extrême évolutivité sur les centaines ou les milliers de serveurs d'un cluster Hadoop.
Distributions big data d'Apache Hadoop : Plusieurs fournisseurs ont développé leurs propres distributions d'Hadoop, notamment Cloudera, Hortonworks, IBM® BigInsights® et MapR.
Table utilisateur est un terme d'Unica Campaign qui représente une source de données contenant les données marketing d'une organisation, accessibles par les diagrammes Unica Campaign. En règle générale, les tables utilisateur contiennent des données sur les clients, les prospects et les produits. Par exemple, les données des comptes client extraites des tables utilisateur peuvent être utilisées dans un diagramme pour cibler les clients avec des types de compte et des soldes particuliers.
Ressources en ligne
Les liens suivants sont valides au moment de la publication de ce document, mais peuvent changer par la suite :
- Cloudera ODBC driver : https://www.progress.com/products/data-sources/apache-hadoop-hive
- Hive ODBC driver : https://www.progress.com/products/data-sources/apache-hadoop-hive
- Hive https://cwiki.apache.org/confluence/display/Hive/Home
- HiveQL : https://cwiki.apache.org/confluence/display/Hive/LanguageManual
- Hive HBase integration : https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration
- Hue et Hadoop : http://gethue.com