Hive und Hive Data Lake

Was ist Hive? 

Hive ist ein Data-Warehouse-Framework, das eine Dateninfrastruktur über Hadoop legt, so dass die Daten mit einer SQL-ähnlichen Sprache abgefragt werden können. Das Hive Data Warehouse speichert die Daten nicht selbst. Hadoop speichert die Daten. Hive verwendet einen SQL-Dialekt, die Hive-Abfragesprache (HQL oder HiveQL), um Abfragen, Zusammenfassungen und Analysen der gespeicherten Daten durchzuführen. 

Was ist ein Hive-Datensee?

Der eigentliche Hive-Datensee - ein Datenspeicher - befindet sich in Hadoop. Ein Data Lake ist eine flache Architektur, die große Mengen an Rohdaten enthält. Der Hadoop-Datensee speichert mindestens einen nicht-relationalen Hadoop-Datencluster. 

Relationale Daten werden in Tabellen oder Diagrammen gespeichert, was das Lesen der Datenzeilen erleichtert. Nicht-relationale Daten sind weniger gut organisiert als relationale Daten. Sie haben jedoch den entscheidenden Vorteil, dass sie praktisch alle Arten von Daten speichern können. Da sie nicht starr strukturiert sind, lassen sich nicht-relationale Daten außerdem einfacher und kostengünstiger erstellen, erweitern und pflegen. 

Wie Hive Data Lake die Ingestion unterstützt

Die Vorteile von Hive ermöglichen eine einfachere Integration mit benutzerdefinierten Elementen, wie Erweiterungen, Programmen und Anwendungen. Außerdem ist es besser für die Batch-Dateneingabe und -verarbeitung geeignet.

Die Nutzung der Vorteile von Hive-Abfragen und -Warehousing mit der SnapLogic Enterprise Integration Platform kann die Effizienz und Geschwindigkeit der Dateneingabe sowie die Produktivität der Mitarbeiter erhöhen. Da keine Kodierung erforderlich ist und die Governance vereinfacht wird, können Sie flexible Datenpipelines erstellen, die genau die Informationen speichern und extrahieren, die Sie benötigen. 


Weitere Inhalte, die Sie interessieren könnten