Dieser Artikel erschien ursprünglich auf computable.nl.
Viele Unternehmen möchten Big Data nutzen, um bessere Entscheidungen zu treffen, Kundenbeziehungen zu stärken und die Effizienz im Unternehmen zu steigern. Sie sehen sich mit einer schwindelerregenden Vielfalt an Technologien konfrontiert - von Open-Source-Projekten bis hin zu kommerzieller Software -, die helfen können, die großen Datenmengen besser in den Griff zu bekommen. So können beispielsweise Dienste wie Hadoop, Spark und Redshift als Grundlage für die Arbeit mit Big Data genutzt werden.
Letztlich wollen die meisten Unternehmen einfach bessere Daten und schnellere Antworten - und nicht die Schwierigkeiten, die mit der Anwendung verschiedener Technologien verbunden sind. Während sich Hadoop und andere Big-Data-Plattformen langsam entwickelt haben, ist die Cloud schneller gewachsen. Daher kann die Cloud jetzt viele der Probleme lösen, die früher den Fortschritt von Big Data verhindert haben.
Optimale Nutzung
Das Versprechen von Big Data wurde in den letzten Jahren hauptsächlich von großen Unternehmen mit umfangreichen technischen und datenwissenschaftlichen Abteilungen eingelöst. Die verwendeten Systeme waren komplex, schwer zu verwalten und unterlagen Veränderungen. Für große Unternehmen im Silicon Valley ist dies machbar, aber das durchschnittliche niederländische Unternehmen kann sich solche Systeme nicht leisten. Ein durchschnittliches Unternehmen möchte die besten Daten so schnell wie möglich am richtigen Ort haben, ohne Dutzende von Java-Ingenieuren einstellen zu müssen, weil sie die Technologie von A bis Z kennen.
Die Probleme, auf die die Kunden mit der Hadoop-Plattform vor Ort stoßen, sind oft dieselben, die sie auch bei den lokalen Altsystemen hatten: Es gibt einfach nicht genügend qualifiziertes Personal, um alles zu erledigen. Die Unternehmen wollen fortschrittliche Funktionen, aber sie wollen nicht mit Fehlern, fehlgeschlagenen Integrationen und neuen Versionen konfrontiert werden. Außerdem ändern sich die Nutzungsmodelle - wir wollen jederzeit Daten abrufen, speichern und verarbeiten. Wir wollen nicht zu viel Kapazität. Wir wollen jederzeit und auf jede Weise auf die Infrastruktur zugreifen, und wir wollen immer etwas mehr, als wir brauchen.
Kurz gesagt: Big Data kann nur über die Cloud optimal genutzt werden. Die erste Welle von "Big Data über die Cloud" war einfach: Unternehmen wie Cloudera stellten ihre Software auf Amazon. Aber "echte Cloud" bedeutet, dass Unternehmen Hadoop oder Spark nicht selbst verwalten müssen - sondern die Komplexität in eine gehostete Infrastruktur verlagern, wo sich jemand anderes um die Verwaltung kümmert. Zu diesem Zweck bieten Amazon, Microsoft und Google jetzt "managed Hadoop" und "managed Spark" an. Unternehmen müssen sich nur noch Gedanken über die Daten, die sie haben, die Fragen, die sie haben, und die Antworten, die sie wollen, machen. Sie müssen keinen Cluster betreiben, keine neuen Produkte erforschen und sich nicht um die Versionsverwaltung kümmern. Es geht nur darum, Daten zu laden und mit der Verarbeitung zu beginnen.
Gründe für die Verwaltung großer Datenmengen
Es gibt drei wichtige - vielleicht nicht immer offensichtliche - Gründe für die Verwaltung großer Datenmengen in der Cloud:
- Vorhersagbarkeit: Die Verantwortung für die Infrastruktur und deren Verwaltung liegt beim Cloud-Anbieter. Dadurch können Unternehmen nach ihren eigenen Erkenntnissen und Bedürfnissen skalieren, ohne mit (finanziellen) Überraschungen konfrontiert zu werden.
- Kosteneffizienz: Anders als bei Hadoop vor Ort, wo sich Rechenleistung und Speicherplatz gegenseitig beeinflussen, sind sie in der Cloud getrennt. Unternehmen können beides individuell nach Bedarf einsetzen und profitieren von niedrigeren Kosten.
- Innovation: Cloud-Anbieter setzen kontinuierlich die neueste Software, Infrastruktur und bewährte Verfahren ein. So können Unternehmen die Vorteile der Cloud optimal nutzen, ohne in Zeit und Geld zu investieren.
Natürlich gibt es noch viel zu tun, aber das betrifft eher die Daten und den Betrieb und nicht die Infrastruktur. Die gute Nachricht für Unternehmen ist, dass es einen "neuen" Trend im Bereich der Datenintegration und -nutzung gibt, und zwar den Übergang zur Selbstbedienung. Dank neuer Tools und Plattformen ermöglicht die "Self-Service-Integration" die schnelle und einfache Erstellung automatisierter Datenpläne ohne die Verwendung von Code. Die "Self-Service-Analytik" erleichtert Analysten und Geschäftsanwendern die Bearbeitung von Daten ohne Eingreifen der IT-Abteilung.
Alles in allem sind diese Trends für die Demokratisierung von Daten verantwortlich - und das ist vielversprechend. Dies wird erhebliche Auswirkungen auf horizontale Funktionen und vertikale Branchen haben. Daten werden so zu einer flüssigeren, dynamischeren und zugänglicheren Quelle für alle Organisationen. Die IT hat nicht mehr die Schlüssel zum Königreich in der Hand, und die Entwickler bestimmen nicht mehr den Arbeitsablauf. Genau zur rechten Zeit, denn die Menge und Geschwindigkeit der Daten aus digitalen und sozialen Medien, mobilen Tools und Edge-Geräten droht uns zu überfordern. Sobald das Versprechen des Internets der Dinge, der KI und des maschinellen Lernens wirklich wahr wird, werden wir von riesigen Datenmengen überwältigt werden.