Ursprünglich veröffentlicht auf Data Centre Review.
Die digitale Transformation verändert den IT-Ansatz vieler Unternehmen, und Daten stehen im Mittelpunkt des Geschehens. Dies hat zur Folge, dass Unternehmen einen erheblichen Wandel in Bezug auf den Ort und die Art und Weise, wie sie diese Daten verwalten, speichern und verarbeiten, vollziehen.
Um Big Data in der nicht allzu fernen Vergangenheit zu verwalten, verarbeiteten Unternehmen große Datenmengen, indem sie einen Hadoop-Cluster vor Ort mit einer kommerziellen Distribution wie Cloudera, Hortonworks oder MapR aufbauten.
Die analysierten Daten waren größtenteils strukturiert und erforderten einen hohen Investitionsaufwand für die Anschaffung der erforderlichen Hardware. Hinzu kommt, dass die Verwaltung und Überwachung von Hadoop eine komplexe Infrastruktur ist, für die Unternehmen Mitarbeiter mit speziellen Kenntnissen einstellen müssen, die nur selten zu finden sind.
Um diese Probleme zu lösen, haben viele Unternehmen auf die Cloud gesetzt. Doch die versprochenen Vorteile der Verlagerung von Big-Data-Projekten in die Cloud haben sich für die meisten Unternehmen nicht erfüllt, und so werden Data Lakes weiterhin vor Ort betrieben.
Auf dem Weg zu den Wolken
Durch die Erstellung oder Migration ihrer Big-Data-Architektur in die Cloud können Unternehmen von enormen Betriebskosteneinsparungen, nahezu unbegrenzter Datenverarbeitungsleistung und den sofortigen Skalierungsoptionen der Cloud profitieren. Darüber hinaus müssen sie keine großen Investitionen tätigen und sich keine Gedanken darüber machen, ob sie über fundierte Kenntnisse von Hadoop verfügen.
Viele Unternehmen sind dabei, ihre lokalen Datencluster in die Cloud zu verlagern. In der Vergangenheit war dies jedoch auch mit Problemen verbunden. Viele der Herausforderungen bei der Verlagerung von Big-Data-Projekten in die Cloud bestanden darin, die richtigen Daten an den richtigen Ort zu bringen.
Es kommt auf die Fähigkeiten und die Kosten an
Die Verlagerung von Big Data in die Cloud klingt einfach. Aber die Migration von On-Premise-Datenseen in die Cloud und die anschließende Verbindung von Cloud-basierten Big-Data-Umgebungen mit verschiedenen Datenquellen sowie die Erstellung von Apache Spark-Pipelines zur Umwandlung dieser Daten erfordern ein hohes Maß an technischem Wissen und kontinuierliche Kodierungsressourcen von Dateningenieuren und IT-Kerngruppen.
Die Entwickler müssen Code schreiben, der sich in die Programmierschnittstelle (API) und die Authentifizierungsmechanismen der einzelnen Anwendungen integrieren lässt, damit sich die Daten frei zwischen den Anwendungen und dem Data Lake bewegen können. Dies ist nicht nur ein unglaublich zeitaufwändiger Prozess, sondern auch fehleranfällig - zwei Tatsachen, die sich in der Wartungsphase von Cloud-basierten Big-Data-Projekten noch verstärken.
Wie bei jedem anderen Softwareprojekt veraltet der Code mit der Zeit und muss aktualisiert werden. Wenn der Entwickler, der den Code geschrieben hat, das Unternehmen verlässt, verschwindet oft auch die Fähigkeit der IT-Organisation, die Pipeline zu verstehen, die auf Code-Ebene verwendet wird.
Diese zeitliche Beanspruchung wichtiger IT-Mitarbeiter ist eines der größten Probleme, die Unternehmen bei der Umstellung auf Cloud-basierte Big-Data-Projekte zu bewältigen hatten. Die intensive Verwaltung und Überwachung, die erforderlich ist, führt letztendlich zu unerschwinglichen Betriebskosten, einer längeren Time-to-Value und einer Strategie, die nichts gegen die Betriebskosten- und Qualifikationslücke unternimmt, die sich immer mehr abzeichnet.
Die Suche nach Mitarbeitern mit den erforderlichen Fähigkeiten und Erfahrungen für den Aufbau von Big-Data- und Cloud-Pipelines ist ein schwieriger Prozess. Es überrascht nicht, dass dies durch die aktuelle Qualifikationslücke in der IT-Landschaft beeinträchtigt wird.
Untersuchungen von Experis haben gezeigt, dass die Nachfrage nach Big-Data-Kenntnissen und -Fachleuten im letzten Jahr um 78 % gestiegen ist, während die Nachfrage nach Cloud-Kenntnissen und -Fachleuten im gleichen Zeitraum um 30 % gestiegen ist.
Wenn Sie es schaffen, diese Personen in Ihrem IT-Team zu haben, ist es eine Verschwendung von Ressourcen, wenn sie sich ausschließlich auf die Verwaltung und Wartung der Big-Data-Umgebung vor, während und nach der Migration in die Cloud konzentrieren, da diese Personen so rar sind. Dies hat auch einen großen Einfluss auf das zweite große Problem bei der Umstellung auf die Cloud - die Kosten.
Wenn Sie hoch qualifizierte Mitarbeiter beschäftigen, möchten Sie, dass diese einen bedeutenden und strategischen Nutzen für das Unternehmen erbringen. Sie sollen sich auf höherwertige Aufgaben und Projekte konzentrieren, die das Unternehmen bei der Innovation unterstützen. Die Flexibilität und Skalierbarkeit der Cloud kann ein enormer Vorteil für das Streben nach Innovation sein. Aber die vorgeschlagene Zeit bis zur Innovation, die zu Beginn der Cloud-Migration ermittelt wurde, wird nie erreicht werden, wenn sich die Teams nur auf das Infrastrukturmanagement konzentrieren, um das Big-Data-Projekt zum Laufen zu bringen.
Kaufen vs. Bauen
Die Lösung für dieses Problem ist relativ einfach und läuft auf die Frage "Kaufen oder Bauen" hinaus. Wenn Sie nicht gerade Google sind, werden Sie wahrscheinlich nicht jeden Aspekt Ihrer IT-Anlage selbst bauen. Warum also sollten Sie alle Verbindungen, die Sie benötigen, selbst bauen?
Damit Big-Data-Projekte in der Cloud schneller gedeihen können, sollten Unternehmen die Implementierung einer vollständig verwalteten Datenarchitektur anstreben, die Datenintegration (iPaaS), Verarbeitung (BDaaS) und Speicherung (SaaS) umfasst.
Auf diese Weise sollten Unternehmen in der Lage sein, große Datensätze mühelos in und aus ihren Cloud-basierten Data Lakes bereitzustellen, unabhängig davon, woher die Daten stammen. Dieser Ansatz kann auch die Produktivität steigern, da mühsame manuelle Aufgaben rund um das Hinzufügen von Informationen und die Umwandlung von Daten entfallen und sich die Teams stattdessen auf die wertschöpfenden Tätigkeiten konzentrieren können.
Durch die Unterstützung dieser verwalteten Datenarchitektur mit Self-Service können Unternehmen noch mehr Zeit innerhalb des IT-Teams freisetzen. Dank Self-Service-Integration können Unternehmen schnell und einfach automatisierte Datenpipelines ohne Programmierung erstellen, und Self-Service-Analysen erleichtern Analysten und Geschäftsanwendern die Bearbeitung von Daten ohne Eingreifen der IT.
Durch den Einsatz von Self-Service-Tools wie diesem können nicht nur Unternehmen mit voll ausgestatteten IT-Teams profitieren, sondern auch Unternehmen, die Schwierigkeiten haben, Programmiertalente zu rekrutieren, können ihre eigenen Cloud-Big-Data-Pipelines als Teil ihrer verwalteten Datenarchitektur in der Cloud entwickeln.
Beseitigung der Komplexität
Die Durchführung von Big-Data-Projekten in der Cloud sollte einfach sein. Alle Unternehmen, unabhängig von ihrer Größe, sollten in der Lage sein, alle Vorteile der Cloud zu nutzen, sobald sie den Betrieb aufgenommen haben, und nicht erst Jahre später. Nur wenn sie in der Planungsphase einen Schritt zurücktreten und die Komplexität der Cloud-Migration und -Integration beseitigen, können Unternehmen ihre Big-Data-Projekte endlich für Innovationen und die Schaffung von Geschäftswert nutzen.