Da Unternehmen sich mit der Frage auseinandersetzen, wie sie die immer umfangreicheren und vielfältigeren Reserven an Big Data effektiv verwalten können, werden Data Lakes zunehmend als intelligenter Ansatz angesehen. Dieses Modell kann zwar die Flexibilität und Skalierbarkeit bieten, die in herkömmlichen Architekturen für die Verwaltung von Unternehmensdaten fehlen, aber Data Lakes bringen auch eine Reihe neuer Herausforderungen in Bezug auf Integration und Governance mit sich, die den Erfolg behindern können.
Die Macht und das Potenzial von Data Lakes
Data Lakes sind aus dem Aufkommen der Cloud und von Big-Data-Technologien wie Hadoop hervorgegangen und bieten Unternehmen die Möglichkeit, nahezu unbegrenzte Mengen an strukturierten und unstrukturierten Daten aus unzähligen Quellen kostengünstig zu speichern, ohne sich Gedanken darüber zu machen, wie diese Daten in Zukunft genutzt werden könnten. Durch seine Natur und die Self-Service-Funktionen für Business Intelligence fördert ein Data Lake auch das Experimentieren und die Datenexploration durch eine breitere Gruppe von Benutzern, die keine Business-Analysten sind. Laut einer von TDWI Research durchgeführten Umfrage sahen 85 Prozent der Befragten im Data Lake eine Möglichkeit, die Herausforderungen zu bewältigen, denen sie sich bei der Bewältigung der Datenflut mit herkömmlichen relationalen Datenbanken gegenübersehen. Darüber hinaus ergab die TDWI-Umfrage, dass der Data Lake für eine Vielzahl von Vorteilen und Anwendungsfällen genutzt wird, wobei erweiterte Analysen (49 Prozent) und Datenermittlung (49 Prozent) die wichtigsten sind.
Trotz der Leistungsfähigkeit und des Potenzials der Technologie stoßen Unternehmen wahrscheinlich auf völlig neue Probleme bei der Datenverwaltung und Datenintegration, wenn sie Data Lakes ohne eine zusammenhängende und gut geplante Strategie angehen. Herkömmliche Datenintegrationslösungen wie Enterprise Service Bus (ESB), ETL-Tools (Extrahieren, Transformieren und Laden) und benutzerdefinierter Code sind weder in der Lage, das Volumen und die Variationen strukturierter und unstrukturierter Daten zu verwalten, noch sind sie in der Lage, effektiv mit schemafreien Datenspeichern zu arbeiten oder Echtzeitdatenströme zu verarbeiten. Unter Berücksichtigung dieser Vorbehalte kann die Einhaltung der folgenden Best Practices eine reibungslosere Einführung des Data Lake und einen effektiveren Migrations- und Integrationsplan gewährleisten:
Setzen Sie auf Data Governance. Ja, der Data Lake ist flexibel und unstrukturiert, aber ohne die Beachtung formaler Governance-Praktiken kann er sich schnell in einen schwer durchschaubaren, unmöglich zu verwaltenden Datensumpf verwandeln. Entscheidend ist es, mit Hilfe eines qualifizierten Datenverwalters Kontrollen über eine richtlinienbasierte Data Governance einzurichten und eine Metadatenanforderung durchzusetzen, die sicherstellt, dass Benutzer Daten finden und Abfragen optimieren können. Die automatisierte Erstellung von Metadaten ist eine Möglichkeit, Konsistenz und Genauigkeit zu gewährleisten.
Bauen Sie auf Governance mit Zonen. Die Daten in einem Data Lake können logisch oder physisch nach Funktionen getrennt werden, was dazu beitragen kann, die Umgebung zu organisieren. Es gibt zwar viele Ansätze für diese Strategie, aber einige Experten schlagen vor, eine Zone für kurzlebige Daten vor dem Ingest vorzusehen, eine weitere für Rohdaten wie Sensordaten oder Weblogs und dann vertrauenswürdige Zonen für Daten, die Qualitätsroutinen und Validierung durchlaufen haben und somit zur Quelle für andere nachgelagerte Systeme werden können.
Evaluieren Sie modernere Integrationsmethoden. Bestehende Datenintegrationslösungen wie ESBs und ETL-Tools können den besonderen Anforderungen eines Data Lake nicht gerecht werden, einschließlich der Notwendigkeit, Daten in Echtzeit zu importieren und zu exportieren und mit unstrukturierten Daten zu arbeiten, die sich oft in rasantem Tempo ändern. Im Vergleich dazu sind die neuen Datenintegrationsansätze speziell für die Arbeit mit großen Datenmengen ohne native hierarchische Struktur ausgelegt, und viele von ihnen bieten vorgefertigte Konnektoren, die es "bürgerlichen Entwicklern" ermöglichen, einen Teil dieser Arbeit ohne Abhängigkeit von der IT zu erledigen.
Stellen Sie entsprechend Personal ein. Es ist schon schwer genug, qualifizierte Data-Warehouse-Experten oder Business-Intelligence-Analysten zu finden, aber Big Data und die damit einhergehenden Analyseanforderungen erhöhen das Qualifikationsniveau noch um ein Vielfaches. Angesichts der relativen Neuheit von Technologien wie Hadoop verfügen die meisten Unternehmen nicht über ausgebildete Spezialisten in dieser Disziplin oder in anderen relevanten Kompetenzen wie Datenfluss-Technologien wie Flume und Spark. Um sicherzustellen, dass die richtige Mischung an Talenten vorhanden ist, sollten IT-Organisationen leistungsstarke Mitarbeiter identifizieren, die in einigen dieser neuen Fähigkeiten geschult werden können, und gegebenenfalls externe Experten hinzuziehen.
Data Lakes können Unternehmen dabei helfen, die Versprechen der Big Data-Analyse einzulösen, um Erkenntnisse zu gewinnen und datengesteuerte Innovationen voranzutreiben. Das neue Modell erfordert jedoch die Einhaltung von Governance und neuen Integrationspraktiken, um sicherzustellen, dass die Reise reibungslos verläuft und nicht im Sumpf versinkt.