Zuvor veröffentlicht auf information-age.com.
Sowohl der Data Lake als auch das Data Warehouse in der Cloud haben ihre Vorteile. Während Data Lakes aus unorganisierten Lagunen ohne Kategorien bestehen, sind sie für Datenwissenschaftler hervorragend geeignet, um verschiedene Arten von Daten gleichzeitig zu analysieren.
Die beiden Arten der Datenspeicherung unterscheiden sich auch in den Werkzeugen, auf die zugegriffen werden kann.
"Generell gilt für Redshift, Snowflake, Azure und SQL Data Warehouse, dass eines der wichtigsten Dinge, wenn man über ein Data Warehouse spricht, die Zugänglichkeit zu den Tools ist, die heute zur Verfügung stehen und mit denen die Menschen vertraut sind", sagt Craig Stewart, CTO von SnapLogic.
"Das kann etwas wie Microstrategy oder Tableau sein, oder etwas wie AWS Insights oder Microsoft Power BI, die alle über SQL mit diesem Datenspeicher kommunizieren können.
"Das ist der eigentliche Unterschied zwischen einem Data Warehouse und einem Data Lake. Die Zugänglichkeit zu diesen Werkzeugen sowie die Abfragemöglichkeiten in der SQL-Form machen es demokratisch, so dass jeder, der SQL bedienen kann, diese Dinge nutzen kann, während man bei einem Data Lake eine viel vielfältigere Palette von Möglichkeiten hat, die APIs, um mit den Dateien wie Parquet usw. umzugehen. Das ist viel offener und erfordert in der Regel ein viel tieferes Wissen."
Unterschiede in den Fähigkeiten
Bei der Frage, wie man Daten am besten speichert, kommt es laut Stewart auf den Anbieter an, den man verwendet.
"Die Dinge, die Amazon und Microsoft mit S3 und den verschiedenen Dateisystemen, die Amazon entwickelt hat, tun. Es ist interessant, dass die Microsoft Azure-Plattform jetzt drei verschiedene Dateisysteme hat, die für die Benutzer etwas verwirrend sind, aber was sie tun, ist, dass sie die Dateisysteme verbessern, um die beste Funktionalität für das zu bieten, was die Leute tun wollen.
"Im Zusammenhang mit einem Data Warehouse eignet sich das neueste Dateisystem, Azure Data Lake Storage Gen2, besonders gut für den Data Lake und den Zugriff, den man von Dingen wie Spark aus haben muss, um die beste Leistung zu erzielen.
"Das Gute an der Amazon-Welt ist, dass S3 seit vielen Jahren konsistent ist, so dass es nicht zu viele Iterationen geben muss. Sie bieten einige zusätzliche Funktionen, Sicherheitsaktualisierungen und Dinge, die man wiederholen kann, aber keine umfassende Änderung der API, wie sie in der Azure-Umgebung stattgefunden hat. Darüber hinaus kommt es natürlich auch darauf an, in welchem Format man die Daten speichert.
"In der Data-Warehouse-Welt hat sich Parquet aufgrund seiner Kompaktheit und der relativ hohen Geschwindigkeit, die man damit erzielen kann, wenn man partitioniert hat, als bevorzugtes Format durchgesetzt.
Vorteile eines Cloud Data Warehouse
Der CTO von SnapLogic nannte vor allem zwei Vorteile für den Einsatz von Cloud Data Warehouse-Plattformen.
"Erstens ist es eine Weiterentwicklung dessen, was wir vor einigen Jahren gemacht haben, als wir versuchten, Abfragen aus den Transaktionssystemen des Unternehmens auszulagern, was wir als 'Query Offloading' bezeichnen", so Stewart. "Man nimmt die Daten und legt sie irgendwo anders in einer anderen Datenbank ab, so dass man sie abfragen kann, ohne das operative System zu beeinträchtigen.
"Jetzt ist das wirklich nicht mehr der Fall. Die Datenbanken vor Ort nutzen jetzt die Cloud Data Warehouses. Das ist es, was die Leute versuchen zu tun, und sie finden, dass es ihnen einen Nutzen bringt.
Der zweite Vorteil, den das Cloud Data Warehouse laut Stewart bietet, ist seine Skalierbarkeit.
"Anstatt den vollen Umfang, den man zu einem bestimmten Zeitpunkt benötigt, erst aufbauen zu müssen, sind Cloud-Data-Warehouses jetzt tatsächlich in der Lage, nach Bedarf zu skalieren", sagte er.
"Wenn ich meine Tages-, Wochen- oder Monatsberichte erstelle und dafür mehr Leistung benötige, kann ich das jetzt für den Zeitraum der Stunden tun, in denen ich das tun möchte, und für den Rest des Monats kann ich es auf das übliche Niveau zurückfahren.
"Dies bietet den Kunden zum einen einen Kostenvorteil, zum anderen verbrauchen wir nicht mehr all diese fossilen Brennstoffe, um diese zu betreiben. Die elastische Skalierbarkeit der Cloud wird in der Cloud-Data-Warehouse-Welt deutlicher als in den meisten anderen Bereichen realisiert."
Die Herausforderungen
Natürlich ist der Betrieb eines Cloud Data Warehouse nicht ganz unproblematisch, und das liegt nicht nur an der im Vergleich zu Data Lakes geringeren Datenvielfalt.
Eine Herausforderung, die Stewart ansprach, waren die Kosten, die mit der Verlagerung von Daten in die Cloud verbunden sind.
"Es gibt die Vorstellung, dass man alles in die Cloud verlagern kann", erklärte er. "Das kann man, aber das ist zweifellos mit Kosten verbunden, nicht nur für die Verlagerung der Daten in diese Umgebung, sondern auch für die Aufbewahrung der Daten in dieser Umgebung.
"Einer der Vorteile eines Data Lake gegenüber einem Cloud-Data-Warehouse ist, dass es sich bei einem Data Lake eher um eine passive Speicherung handelt, im Gegensatz zu einem Cloud-Data-Warehouse, bei dem Sie die verschiedenen Tabellen aktiv pflegen.
"Wenn man versucht, das richtige Gleichgewicht zu finden, kostet ein Cloud-Data-Warehouse erheblich mehr als nur der Basisspeicher, und man muss verstehen, wie man das Gleichgewicht zwischen dem, was man in sein Data-Warehouse packt, und dem, was man nur speichert, hält, und der Vorteil liegt darin, dass man Daten bei Bedarf in das Cloud-Data-Warehouse verschiebt.
Eine zweite Herausforderung besteht für den CTO von SnapLogic in der Abfrage von Daten und der Kommunikation zwischen IT und Entscheidungsträgern.
"Mit Redshift Spectrum werden externe Tabellen im Wesentlichen so definiert, dass man sie im Cloud Data Warehouse definiert, aber wenn man sie tatsächlich abfragt, wird im Hintergrund auch eine Abfrage auf diesen nativen Dateien durchgeführt, die nicht direkt im Speicher gehalten wird", so Stewart.
"Aus der Sicht von Snaplogic ist die Frage, wie man die Daten dorthin bekommt, die Herausforderung, die wir angehen. Wir machen das zu einer Aufgabe, die von der Geschäftsleitung und nicht vom IT-Team übernommen werden kann, und ich denke, das ist eine wichtige Sache.
"Wenn ein Unternehmen in der Lage sein will, agil zu sein und die Daten in kurzer Zeit abfragbar und nutzbar zu machen, braucht es die Fähigkeit zu sagen: 'Wir können nicht darauf warten, dass die IT-Abteilung unsere Daten überträgt, denn die IT-Abteilung hat in der Regel einen Rückstand, und sie ist mit dem Tagesgeschäft beschäftigt und nicht mit den agileren Prozessen, die die Geschäftsbereiche anstreben, um diese Dinge zu tun, wie z. B. Produktlinien zu ändern, Preise zu ändern und in der Lage zu sein, diese Dinge zu verstehen.'"