Verwaltung großer Datenmengen: Doug Henschen taucht in den Data Lake ein

doug_henschen_konstellationGestern veranstaltete SnapLogic ein Webinar mit folgenden Themen Doug Henschen von Constellation Research mit dem Titel Die Demokratisierung des Data Lake: Der Stand des Big Data Management im Unternehmen. Doug machte den Anfang, indem er mit einigen überzeugenden Beispielen aus der Praxis aufzeigte, wo wir waren und wo wir heute stehen. Das zweite Maschinenzeitaltervon Erik Brynjolfsson und Andrew McAfee. Wenn es um die Leistung moderner Computer geht, war beispielsweise 1996 die U. S ASCI Rot in den Sandia Labs kostete 55 Millionen Dollar, war 1.600 Quadratmeter groß und hatte eine Rechenleistung von 1,8 Teraflops. Im Jahr 2006 wurde die Sony PlayStation 3 für 499 $ verkauft, war 4 x 12 x 10 Zoll groß und verfügte über 1,8 Teraflops an Rechenleistung. Erstaunlich! Doug fuhr fort und sprach über die Auswirkungen des verteilten Rechnens und die Entwicklung der Software (man denke nur an Kasparov gegen Big Blue im Vergleich zum Schachspiel auf Ihrem Laptop heute).

Sicher, einige dieser Fakten werden oft diskutiert, und es gibt keinen Mangel an Statistiken über die Auswirkungen von Big Data auf jede Branche und unser tägliches Leben, aber was mir an Dougs Botschaft wirklich gefiel, war die Wichtigkeit, sich auf das zu konzentrieren, was tatsächlich den Geschäftswert steigert. Nutzen Sie Big Data, um den analytischen Einblick zu verbessern, aber denken Sie daran, dass "Big Data nur ein Teil des Trends zur digitalen Disruption ist."

Dougs Präsentation gab einen Überblick über den heutigen Hadoop-Markt und stellte fest, dass das am schnellsten wachsende Segment die Verlagerung in die Cloud ist. Hadoop hat sich als Plattformstandard durchgesetzt und wird in den Unternehmen immer mehr angenommen, aber Spark ist definitiv der Beschleuniger. Zum Thema Data Lake hat Doug eine Reihe von wichtigen Punkten angesprochen:

  • Sie besteht nicht nur aus neuen Datentypen. Oft handelt es sich um Daten, für die sich Unternehmen in der Vergangenheit keine Umschulung oder praktische Analyse leisten konnten.
  • Es ist kein Ersatz für ein unternehmensweites Data Warehouse - es besteht nach wie vor ein Bedarf an, wie er es nennt, "industrialisierten Abfragen gegen bekannte Daten".
  • Es geht um die Integration neuer Daten, wobei proaktive und prädiktive Analysen eine gemeinsame Triebkraft darstellen.
  • Ohne eine geordnete Infrastruktur kann sich ein Cluster in einen Sumpf verwandeln.

Bevor er in die Details des Unternehmens-Datensees eintauchte und Anbieter in jeder Kategorie vorstellte, konzentrierte sich das Gespräch auf spezifische Big-Data-Anwendungsfälle nach Branchen. Es wurden konkrete Beispiele von Fallstudien vorgestellt, an denen er gearbeitet hat - von der Kampagnenanalyse und -optimierung im digitalen Marketing und in der Werbung über die Archivierung und Geldwäschebekämpfung im Finanzdienstleistungssektor bis hin zur Optimierung von Supply Chain im Einzelhandel, von Kundenabwanderungsinitiativen in der Telekommunikation bis hin zur Analyse von Schadensfällen in der Versicherungsbranche.

Ich empfehle Ihnen, sich die gesamte Präsentation hier anzusehen. Ähnlich wie bei einigen Beispielen für Data Lake-Architekturen und Whitepapers, die wir kürzlich im SnapLogic-Blog veröffentlicht haben, gibt es eine Reihe solider Schlussfolgerungen darüber, wie der Data Lake im Verhältnis zu Ihrer bestehenden Dateninfrastruktur zu betrachten ist. Die Quintessenz? Wie Doug in seinem Blog schrieb, ist Hadoop 10 Jahre alt, und wie alle Eltern wissen, ist es wichtig, Zeit mit seinen Kindern zu verbringen, Risiken zu minimieren und ihnen angemessene Grenzen zu setzen, während sie heranreifen. Dasselbe gilt für Ihre Daten: Kennen Sie Ihre Daten, Ihre Benutzer und Ihre Risiken und setzen Sie die entsprechenden Grenzen entlang Ihrer Reifekurve.

Als Branche müssen wir Hadoop demokratisieren und den Aufbau von Data Lakes vereinfachen. Wir bewegen uns auf ein kognitives Zeitalter zu, und die Monetarisierung von Daten ist ein heißer Trend, aber die "Reise in die Digitalisierung kann nicht ohne Vernetzung vollendet werden." Achten Sie bei Ihrer Datenintegrationsstrategie darauf, dass sie Cloud-, Service- und Datenanreicherungsfähigkeiten aufweist. Aber denken Sie über den Tellerrand hinaus: Wie wird ein Data Lake neue Geschäfts- und Datenmodelle vorantreiben?

Ich möchte mich bei Doug Henschen und Constellation Research für den großartigen Marktüberblick und die Diskussion bedanken. Es gibt noch viel mehr, was ich in der vollständigen Präsentation, die auf der SnapLogic-Website verfügbar ist, nicht behandelt habe. Ich verlasse Sie mit dieser Folie, die zusammenfasst, was Hadoop-Benutzer heute sagen:

hadoop_benutzer_konstellation
Constellation Forschung: Gemeinsame Data Lake-Herausforderungen. Was Hadoop-Benutzer sagen...
Kategorie: Daten

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.