Streaming Data und Data Lakes auf der #StrataHadoop World

Ravi DDer Big-Data-Experte und Leiter der Unternehmensarchitektur von SnapLogic, Ravi Dharnikota, wurde auf Informationsmanagement über seine Beobachtungen auf der Strata+Hadoop World in San Jose im letzten Monat. Das wichtigste Ergebnis war, dass sich die Teilnehmer und Sitzungen hauptsächlich auf Streaming-Daten, Data Lakes und Apache Spark für Analysen konzentrierten. Er stellte fest: "Die kontinuierliche Innovation und Veränderung in der Big-Data-Branche sorgt zwar für schnelle, häufige Verbesserungen der Technologie, aber es ist schwierig, in einem Unternehmen mit konkurrierenden Prioritäten und Projekten Schritt zu halten."

Sie können die vollständigen Fragen und Antworten unten lesen. 

Informationsmanagement: Was sind die häufigsten Themen, die Sie von den Teilnehmern der Strata+Hadoop World-Konferenz gehört haben, und wie stimmen diese Themen mit Ihren Erwartungen überein?

Ravi Dharnikota: Im Vergleich zur Veranstaltung 2015 ging es in diesem Jahr ein wenig weg von akademischen Diskussionen über das neueste Apache-Projekt und hin zu realen Anwendungsfällen. Dieses Jahr habe ich viel darüber gehört:

  • Streaming - Erfassung, Verarbeitung und Analyse von Streaming-Daten.
  • Data Lake - Wie man einen Data Lake richtig macht; Ingestion; Governance; Datenvorbereitung.
  • Spark - Eine starke Verlagerung hin zur Unterstützung von Technologien, die auf Spark als Plattform laufen.

IM: Welches sind die häufigsten Herausforderungen im Zusammenhang mit Daten, mit denen die Teilnehmer konfrontiert werden?
RD: Eine der häufigsten Herausforderungen im Zusammenhang mit der Datenverwaltung ist einfach die Allgegenwärtigkeit der Daten. Sie sind überall im Unternehmen vorhanden. Es muss ein Weg gefunden werden, alles an einem Ort zusammenzuführen und die Daten für alle durchsuchbar und nutzbar zu machen, wobei "Leitplanken" zu beachten sind.

Eine weitere Herausforderung besteht darin, dass sich das Big-Data-Ökosystem ständig verändert und mit sich überschneidenden Botschaften von Anbietern und Open-Source-Anhängern ziemlich laut sein kann. Unternehmen, die einfach nur Dinge erledigen wollen, um ihre Geschäftspraktiken voranzutreiben, brauchen Hilfe von End-End-Frameworks.

IM: Was sind die überraschendsten Dinge, die Sie von den Teilnehmern gehört haben?
RD: Nichts davon ist wirklich überraschend, aber dennoch erwähnenswert:

Die Kunden erkennen, dass unabhängig davon, wie offen und flexibel die Vision eines Data Lake ist, eine gewisse Governance mit angemessenen Zugangskontrollen, Audits und Überlegungen zur Datenempfindlichkeit vorhanden sein muss. Außerdem müssen die Daten für jeden, der nach Daten im See sucht, leicht durchsuchbar sein.

Der Datensee besteht nicht nur aus Hadoop. Er könnte sich in der Cloud von Amazon, Microsoft oder Google befinden.

Viele Unternehmen haben sowohl Hortonworks als auch Cloudera in ihrem Data-Hub-Cluster.

IM: Was sind aus Sicht Ihres Unternehmens die wichtigsten Datenprobleme oder Herausforderungen im Jahr 2016?
RD: Organisationen außerhalb der Hightech-Branche brauchen Anleitung und Hilfe bei der Demokratisierung von Daten.

Es fehlt an einer branchenweit definierten "Best Practice" für ein gutes Datenmanagement im modernen Big-Data-Kontext.

Mangelnde Big-Data-Kenntnisse werden auch in Zukunft Selbstbedienungsplattformen und -tools erfordern, die die Technologie abstrahieren und einfach zu nutzen machen.

Die kontinuierliche Innovation und Veränderung in der Big-Data-Branche sorgt zwar für schnelle, häufige Verbesserungen der Technologie, doch ist es schwierig, in einem Unternehmen mit konkurrierenden Prioritäten und Projekten Schritt zu halten.

IM: Wie hängen diese Themen und Herausforderungen mit der Marktstrategie Ihres Unternehmens in diesem Jahr zusammen?
RD:
Die Big-Data-Strategie von SnapLogic zielt darauf ab, den Unternehmen, die nicht in der Lage sind, Ressourcen in die Entwicklung und Verbesserung ihres Systems zur Bewegung, Verwaltung und Nutzung von Daten zu stecken, die Möglichkeit zu geben, mit den Veränderungen im Big-Data-Ökosystem Schritt zu halten.

Bei unserer Strategie geht es darum, den Data Lake als Ganzes zu betrachten und herauszufinden, was ein Unternehmen braucht, um seine Datenmanagement-Initiativen zu verwirklichen. Dies kann auch Aspekte wie Sicherheit, Streaming, Speicherformate, Governance, Metadaten usw. umfassen.


Nächste Schritte:

Kategorie: Daten
Themen: Data Lake Hadoop

Wir stellen ein!

Entdecken Sie Ihre nächste große Karrierechance.