Qu‘est-ce que Hive ?
Hive est un cadre d‘entrepôt de données qui superpose une infrastructure de données à Hadoop afin que les données puissent être interrogées à l‘aide d‘un langage de type SQL. L‘entrepôt de données Hive ne stocke pas les données elles-mêmes. C‘est Hadoop qui les stocke. Hive utilise un dialecte SQL, appelé Hive query language (HQL ou HiveQL), pour effectuer des requêtes, des résumés et des analyses des données stockées.
Qu‘est-ce que le lac de données Hive ?
Le lac de données Hive proprement dit - un référentiel de données - se trouve dans Hadoop. Un lac de données est une architecture plate qui contient de grandes quantités de données brutes. Le lac de données Hadoop stocke au moins un cluster de données non relationnelles Hadoop.
Les données relationnelles sont stockées dans des tableaux ou des graphiques, ce qui facilite la lecture des lignes de données. Les données non relationnelles sont moins organisées que les données relationnelles. Cependant, elles présentent l‘avantage de pouvoir stocker pratiquement n‘importe quel type de données. En outre, comme elles ne sont pas structurées de manière rigide, les données non relationnelles sont plus faciles et moins coûteuses à construire, à développer et à entretenir.
Comment le lac de données Hive facilite l‘ingestion
Les avantages de Hive permettent une intégration plus facile avec des éléments personnalisés, tels que des extensions, des programmes et des applications. Il est également mieux adapté à l‘ingestion et au traitement de données par lots.
Tirer parti de l‘interrogation et de l‘entreposage Hive avec la plate-forme d‘intégration d‘entreprise SnapLogic peut accroître l‘efficacité et la rapidité de l‘ingestion de données, ainsi que la productivité du personnel. Comme aucun codage n‘est nécessaire et que la gouvernance est simplifiée, vous pouvez créer des pipelines de données agiles qui stockent et extraient exactement les informations dont vous avez besoin.