Die neue Data Lake-Umgebung braucht ein neues Arbeitspferd

In dem Whitepaper " How to Build an Enterprise Data Lake: Important Considerations Before You Jump In" (Wichtige Überlegungen, bevor Sie loslegen) umreißt Branchenexperte Mark Madsen die Grundsätze, die das Design Ihrer neuen Referenzarchitektur leiten müssen, sowie einige der Unterschiede zum traditionellen Data Warehouse. In seinem Folgepapier "Will the Data Lake Drown the Data Warehouse"(Wird der Datensee das Data Warehouse ertränken) stellt er die Frage : "Was bedeutet das für die Tools, die wir in den letzten zehn Jahren verwendet haben?"

In diesem letzten Beitrag einer Reihe von Beiträgen zu diesem Papier (siehe den ersten Beitrag hier und den zweiten Beitrag hier) schreibt Mark über die Integration großer Daten anhand eines Beispiels:

"Der beste Weg, die Herausforderung beim Aufbau eines Data Lake zu verstehen, ist, sich auf die Integration in die Hadoop-Umgebung zu konzentrieren. Ein gängiger Ausgangspunkt ist die Idee, ETL und Datenverarbeitung von herkömmlichen Tools auf Hadoop zu verlagern und dann die Daten von Hadoop in ein Data Warehouse oder eine Datenbank wie Amazon Redshift zu schieben, damit die Benutzer weiterhin in gewohnter Weise mit den Daten arbeiten können. Wenn wir uns einige der Besonderheiten in diesem Szenario ansehen, wird das Problem der Verwendung einer Stückliste als Technologieleitfaden deutlich. So ist beispielsweise die Verarbeitung von Web-Event-Logs in einer Datenbank unhandlich und teuer, weshalb viele Unternehmen diese Arbeitslast auf Hadoop verlagern."

Die folgende Tabelle fasst die Anforderungen an die Protokollverarbeitung in einem ETL-Offload-Szenario und die Komponenten zusammen, die für die Implementierung in Hadoop verwendet werden können:

data_lake_ETL_offload

Er fährt fort, die Herausforderungen bei der Entwicklung und die Kompromisse, die mit einem solchen Ansatz verbunden sind, zu erörtern und kommt zu dem Schluss:

"Beim Aufbau eines Data Lake muss man sich Gedanken über die im System benötigten Fähigkeiten machen. Dies ist ein größeres Problem als nur die Installation und Verwendung von Open-Source-Projekten auf Hadoop. Genauso wie die Datenintegration die Grundlage des Data Warehouse ist, ist eine durchgängige Datenverarbeitungsfunktion der Kern des Data Lake. Die neue Umgebung braucht ein neues Arbeitspferd."

Nächste Schritte:

 

Kategorie: Daten

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.