Dieser Artikel wurde ursprünglich auf ITProPortal veröffentlicht.
Mitarbeiter in allen Bereichen der Wertschöpfungskette sind eifrig auf der Suche nach Big-Data-Lösungen, um intelligentere Entscheidungen zu treffen, Kundenbeziehungen auszubauen und die Geschäftseffizienz zu verbessern. Dabei sehen sie sich mit einer schwindelerregenden Vielfalt an Technologien konfrontiert - von Open-Source-Projekten bis hin zu kommerziellen Softwareprodukten - und versuchen, Big Data in den Griff zu bekommen.
Heutzutage konzentrieren sich viele Schlagzeilen und Impulse auf eine Kombination aus Hadoop, Spark und Redshift - die alle als Sprungbrett für Big-Data-Arbeiten dienen können. Es ist jedoch wichtig, einen Schritt zurückzutreten und zu sehen, wo wir uns in der Entwicklung von Big Data befinden.
Big Data befindet sich in vielerlei Hinsicht in einer Übergangsphase. Hadoop, das im April 2006 als offizielles Apache-Projekt ins Leben gerufen wurde und die Softwarewelt als Framework für die verteilte Speicherung und Verarbeitung von Daten auf Standardhardware im Sturm erobert hat, ist in die Jahre gekommen. Apache Spark hat sich als "blitzschnelle" Streaming-Engine für die Verarbeitung großer Datenmengen durchgesetzt. Und es entstehen verschiedene Cloud-Data-Warehousing- und -Analyseplattformen, von großen Namen(Amazon Redshift, Microsoft Azure HDInsight und Google BigQuery) bis hin zu Newcomern wie Snowflake, Qubole und Confluent.
Die Herausforderung besteht darin, dass die meisten Fortschritte im Bereich Big Data in den letzten zehn Jahren auf große Unternehmen mit großen Technik- und Datenwissenschaftsteams beschränkt waren. Die Systeme sind oft komplex, unausgereift, schwer zu verwalten und ändern sich häufig - was im Silicon Valley vielleicht in Ordnung ist, aber im Rest der Welt nicht gut ankommt. Was ist, wenn Sie ein Konsumgüterunternehmen wie Clorox, eine mittelgroße Bank im Mittleren Westen oder ein großes Telekommunikationsunternehmen in Australien sind? Ist das möglich, ohne 100 Java-Ingenieure einzusetzen, die die Technologie in- und auswendig kennen?
Letzten Endes wollen die meisten Unternehmen einfach nur bessere Daten und schnellere Antworten - sie wollen nicht die damit verbundenen technologischen Kopfschmerzen. Glücklicherweise kollidiert der "Megatrend" Big Data jetzt mit einem anderen Megatrend: Cloud Computing. Während sich Hadoop und andere Big-Data-Plattformen langsam entwickelt haben, hat sich das Cloud-Ökosystem schneller entwickelt - und die Cloud kann nun dabei helfen, vieles von dem zu beheben, was den Fortschritt von Big Data behindert hat.
Die Probleme, auf die die Kunden mit Hadoop vor Ort gestoßen sind, sind oft dieselben, die auch bei den Altsystemen vor Ort auftraten: Es gibt einfach nicht genug Leute, die alles erledigen können. Die Unternehmen wollen modernste Funktionen, aber sie wollen sich nicht mit Fehlern, nicht funktionierenden Integrationen und schnell wechselnden Versionen herumschlagen. Außerdem ändern sich die Nutzungsmodelle - wir wollen Daten, Speicher und Rechenleistung nach Bedarf nutzen. Wir wollen nicht zu viel Geld ausgeben. Wir wollen Zugang zur Infrastruktur, wann und wie wir wollen, und zwar genau so viel wie wir brauchen, aber mehr.
Der Wendepunkt von Big Data liegt in der Cloud
Kurz gesagt, der Wendepunkt für Big Data steht kurz bevor - und er wird über die Cloud erfolgen. Die erste Welle von "Big Data über die Cloud" war einfach: Unternehmen wie Cloudera stellten ihre Software auf Amazon. Was aber "wirklich Cloud" ist, ist die Tatsache, dass man Hadoop oder Spark nicht verwalten muss, sondern die Komplexität zurück in eine gehostete Infrastruktur verlagert, so dass jemand anderes sie für einen verwaltet. Zu diesem Zweck bieten Amazon, Microsoft und Google jetzt "Managed Hadoop" und "Managed Spark" an - Sie kümmern sich nur um die Daten, die Sie haben, die Fragen, die Sie haben, und die Antworten, die Sie wollen. Sie müssen keinen Cluster aufsetzen, keine neuen Produkte erforschen und sich nicht um die Versionsverwaltung kümmern. Laden Sie einfach Ihre Daten und beginnen Sie mit der Verarbeitung.
Die Verwaltung von Big Data über die Cloud bietet drei bedeutende und nicht immer offensichtliche Vorteile: 1) Vorhersehbarkeit - die Last der Infrastruktur und des Managements verlagert sich auf die Cloud-Anbieter, und Sie nutzen einfach Dienste, die Sie je nach Bedarf vergrößern oder verkleinern können; 2) Wirtschaftlichkeit - im Gegensatz zu Hadoop vor Ort, bei dem Rechen- und Speicherkapazitäten vermischt wurden, trennt die Cloud Rechen- und Speicherkapazitäten, so dass Sie sie entsprechend bereitstellen und von den wirtschaftlichen Vorteilen der Commodity-Technologie profitieren können; und 3) Innovation - neue Software, Infrastruktur und bewährte Verfahren werden von den Cloud-Anbietern fortlaufend bereitgestellt, so dass Sie die Vorteile in vollem Umfang nutzen können, ohne den gesamten Zeit- und Kostenaufwand im Voraus zu tragen.
Natürlich gibt es immer noch eine Menge harter Arbeit zu tun, aber sie konzentriert sich mehr auf die Daten und das Geschäft und nicht auf die Infrastruktur. Die gute Nachricht für Mainstream-Kunden (weit über das Silicon Valley hinaus) ist, dass ein weiterer Megatrend einsetzt, der die Datenintegration und -nutzung revolutioniert - und das ist der Übergang zur Selbstbedienung. Dank neuer Tools und Plattformen ermöglicht die "Self-Service-Integration" die schnelle und einfache Erstellung automatisierter Datenpipelines ohne Programmierung, und die "Self-Service-Analytik" macht es Analysten und Geschäftsanwendern leicht, Daten ohne IT-Eingriff zu manipulieren.
Alles in allem führen diese Trends zu einer Demokratisierung von Daten, die sehr aufregend ist - und erhebliche Auswirkungen auf horizontale Funktionen und vertikale Branchen haben wird. Daten werden so zu einer flüssigeren, dynamischeren und zugänglicheren Ressource für alle Unternehmen. Die IT-Abteilung hat nicht mehr die Schlüssel zum Königreich in der Hand - und die Entwickler kontrollieren nicht mehr den Workflow. Und das gerade zur rechten Zeit, denn die Menge und Geschwindigkeit der Daten aus digitalen und sozialen Medien, mobilen Tools und Edge-Geräten droht uns alle zu überwältigen. Wenn das Internet der Dinge, die künstliche Intelligenz und das maschinelle Lernen erst einmal ihre volle Wirkung entfaltet haben, wird die Datenflut wahrhaft überschwemmend sein.
Bleibt nur noch eine Frage offen: Was wollen Sie mit Ihren Daten machen?
Ravi Dharnikota ist der leitende Unternehmensarchitekt bei SnapLogic.