Big Data-Architektur - Definition und Überblick

Was ist eine Big-Data-Architektur?

Die Big-Data-Architektur ist das Layout, das den Big-Data-Systemen zugrunde liegt. Sie kann sich entweder auf ihren theoretischen und/oder physischen Aufbau beziehen. Die Big-Data-Architektur soll so strukturiert sein, dass sie die optimale Aufnahme, Verarbeitung und Analyse von Daten ermöglicht. 

Systemarchitekten sind, ähnlich wie Gebäudearchitekten, darauf spezialisiert, einen Prozess zu entwerfen, der die größte Geschwindigkeit und die effizienteste Nutzung von Ressourcen entsprechend den Bedürfnissen eines Unternehmens ermöglicht. Diejenigen, die sich für Big-Data-Architekturen interessieren und eine Karriere in diesem Bereich anstreben, werden ermutigt, die von der Branche empfohlenen Big-Data-Zertifizierungen zu absolvieren, z. B. die Cloudera-Zertifizierung zu erwerben.

Die Big-Data-Architektur muss eine neue Richtung einschlagen. Herkömmliche Datenbanksysteme wären mit der Abfrage von möglicherweise Hunderten von Terabytes an Daten, die in Data Lakes gespeichert sind, überfordert. Eine grundlegende Definition von Data Lakes ist ein riesiges Repository von Dateien, Objekten oder Datenblöcken, die zwischen Gigabyte und Petabyte an Daten enthalten können. Deren schiere Größe bedeutet, dass eine ineffiziente Big-Data-Architektur dazu führen kann, dass eine einzige Abfrage Stunden oder sogar Tage braucht, um Ergebnisse zu liefern.

Die gemeinsamen Komponenten der Big Data-Architektur sind:

  • Datenquellen
  • Speicherung von Daten
  • Stapelverarbeitung
  • Aufnahme von Nachrichten
  • Stream-Verarbeitung
  • Analytischer Datenspeicher
  • Analyse und Berichterstattung

Die Nutzer von Big Data, die sich am ehesten Gedanken über die Perfektionierung ihrer Infrastruktur machen, sind diejenigen, die sehr große Datenmengen (d. h. über 100 Gigabyte) speichern und verarbeiten. Andere Anwendungen betreffen diejenigen, die unstrukturierte Daten umwandeln müssen, damit sie für Analysen und Berichte verwendet werden können.

Cloud-basierte Dienste oder Plattformen, die sich auf Big Data konzentrieren( z. B.Azure oder Salesforce), können als Elemente der Big-Data-Architektur eines Unternehmens oder sogar zur Verwaltung des gesamten Prozesses verwendet werden. Durch die Einbindung etablierter Dienste wie SnapLogic können Unternehmen auf Wissen, Ressourcen und Sicherheit zugreifen, die sie im eigenen Haus möglicherweise nicht aufrechterhalten können.