Die Strata Data Conference in New York ist der Ort, an dem sich Tausende von Spitzenunternehmen intensiv mit neuen Big-Data-Technologien und -Techniken beschäftigen. Von heißen Themen wie KI und maschinellem Lernen bis hin zur Umsetzung von Datenstrategien ist diese seit sieben Jahren stattfindende Konferenzreihe eine Brutstätte für neue Ideen und Strategien zur Bewältigung der Herausforderungen, die sich im Datenbereich ergeben haben.
SnapLogic, ein Gartner-Führer im Bereich der Anwendungs- und Datenintegration für Unternehmen, bietet eine serverlose, Cloud-basierte Laufzeitumgebung für komplexe und hochvolumige Datentransformationsroutinen, die verschiedene Big-Data-Anwendungsfälle bedienen. Wir sind ein Sponsor auf der Strata-Konferenz und werden in der Ausstellungshalle am Stand Nr. 1415 zu finden sein. Besuchen Sie unseren Stand, um eine Demo zu erhalten oder sich für eine kostenlose Testversion anz umelden, und Sie erhalten einen Geschenkgutschein im Wert von 10 US-Dollar. Außerdem nehmen Sie an der Verlosung eines Sonos Playbar + Sonos One Sets teil.
Wenn Sie ein Integrationsarchitekt sind, der an dieser Konferenz teilnimmt, empfehlen wir Ihnen folgende vier Sitzungen:
1. Erstellung einer groß angelegten Anwendung für maschinelles Lernen mit Amazon SageMaker und Spark
David Arpin (Amazon Web Services)
9:00-12:30 Uhr Dienstag, 09/11/2018
Ort: 1A 12/14 Niveau: Fortgeschrittene
Die Popularität des maschinellen Lernens hat in den letzten Jahren enorm zugenommen, und der Drang zur Integration in jede Lösung war noch nie so ausgeprägt wie heute. Der Weg von der Untersuchung über die Modellentwicklung bis zur Implementierung in der Produktion kann schwierig sein. Die neue Plattform für maschinelles Lernen von Amazon SageMaker AWS soll diesen Prozess jedoch vereinfachen.
Maschinelles Lernen beginnt mit Daten, und Spark ist eine der beliebtesten und flexibelsten Lösungen für die Verarbeitung großer Datensätze für ETL, Ad-hoc-Analysen und erweitertes maschinelles Lernen. Die Verwendung von Spark für Anwendungsfälle des maschinellen Lernens in der Produktion kann jedoch zu Problemen mit Inkonsistenzen in der Algorithmus-Skalierung, Konflikten um Cluster-Ressourcen und Vorhersage-Latenzen führen. Durch die Auslagerung der Schulung auf die hoch skalierbaren Algorithmen von Amazon SageMaker, die verteilte, verwaltete Schulungsumgebung und die Bereitstellung mit den Echtzeit-Produktionsendpunkten von SageMaker wird die Implementierung von maschinellem Lernen in der Produktion einfacher und zuverlässiger.
In diesem Tutorial erfahren Sie, wie Sie mit Spark und Amazon SageMaker eine Anwendung für maschinelles Lernen erstellen, von der Datenverarbeitung über das Algorithmus-Training bis hin zur Bereitstellung für einen Echtzeit-Vorhersage-Endpunkt.
2. Ausführung multidisziplinärer Big-Data-Workloads in der Cloud
Sudhanshu Arora (Cloudera), Tony Wu (Cloudera), Stefan Salandy (Cloudera), Suraj Acharya (Cloudera), Brandon Freeman (Cloudera, Inc.)
13:30-17:00 Uhr Dienstag, 09/11/2018
Ort: 1E 14 Niveau: Fortgeschrittene
Unternehmen führen heute verschiedene, multidisziplinäre Big-Data-Workloads aus, die Data Engineering-, analytische Datenbank- und Data-Science-Anwendungen umfassen. Viele dieser Workloads arbeiten mit denselben zugrunde liegenden Daten, und die Workloads selbst können vorübergehender oder lang andauernder Natur sein. Eine der Herausforderungen besteht darin, den Datenkontext über diese verschiedenen Workloads hinweg konsistent zu halten.
In diesem Tutorial werden wir das Cloudera Altus PaaS-Angebot, angetrieben durch Cloudera Altus SDX, nutzen, um verschiedene Big Data-Workloads auszuführen. In diesem Tutorial lernen wir, wie wir die gemeinsam genutzten Daten erfolgreich verwalten, um eine konsistente Erfahrung über alle verschiedenen Workloads hinweg zu gewährleisten, und zwar wie folgt:
- Erfahren Sie, wie Sie eine Datenanalyse-Pipeline erfolgreich in der Cloud betreiben und Datenentwicklungs- und Datenanalyse-Workflows integrieren können.
- Verstehen der Überlegungen und bewährten Verfahren für Datenanalyse-Pipelines in der Cloud
- Untersuchen Sie die gemeinsame Nutzung von Metadaten über Arbeitslasten hinweg in einem Big Data PaaS
3. Stream Processing mit Kafka und KSQL
Tim Berglund (Konfluent)
9:00-12:30 Uhr Dienstag, 09/11/2018
Ort: 1E 14 Niveau: Fortgeschrittene
Apache Kafka ist eine De-facto-Standardplattform für die Verarbeitung von Streaming-Daten, die als Messaging-System weit verbreitet ist und über ein robustes Datenintegrations-Framework (Kafka Connect) und eine Stream-Processing-API (Kafka Streams) verfügt, um die Anforderungen zu erfüllen, die bei der Verarbeitung von Echtzeit-Nachrichten häufig auftreten. Aber das ist noch nicht alles!
Kafka bietet jetzt KSQL, eine deklarative, SQL-ähnliche Stream-Processing-Sprache, mit der Sie auf einfache Weise leistungsstarke Stream-Processing-Anwendungen definieren können. Was früher mäßig anspruchsvollen Java-Code erforderte, kann jetzt mit einer vertrauten und leicht zugänglichen Syntax in der Kommandozeile erledigt werden. In diesem Vortrag erhalten Sie einen Überblick über KSQL mit Live-Codierung von Live-Streaming-Daten.
4. Aufbau einer Datenplattform der nächsten Generation
Ted Malaska (Blizzard Entertainment), Jonathan Seidman (Cloudera)
13:30-17:00 Uhr Dienstag, 09/11/2018
Ort: 1A 06/07 Niveau: Fortgeschrittene
Rasche Fortschritte führen zu einer dramatischen Entwicklung bei den Speicher- und Verarbeitungsfunktionen im Open-Source-Ökosystem für Unternehmensdaten. Zu diesen Fortschritten gehören Projekte wie:
- Apache Kudu, ein moderner kolumnarer Datenspeicher, der HDFS und Apache HBase ergänzt, indem er effiziente analytische Fähigkeiten und schnelle Einfügungen und Aktualisierungen mit Hadoop bietet;
- Apache Kafka, das einen durchsatzstarken und äußerst zuverlässigen verteilten Nachrichtentransport bietet;
- Apache Spark, das aufgrund seines effizienten Designs und der optimierten Speichernutzung parallele Verarbeitungsframeworks wie MapReduce schnell ersetzt. Spark-Komponenten wie Spark Streaming und Spark SQL ermöglichen eine leistungsstarke Verarbeitung nahezu in Echtzeit;
- Verteilte Speichersysteme, wie z. B. HDFS und Cassandra;
- Parallele Abfrage-Engines wie Apache Impala und CockroachDB, die Funktionen für die hochparallele und gleichzeitige Analyse von Datensätzen bieten.
Diese Speicher- und Verarbeitungssysteme bieten eine leistungsstarke Plattform zur Implementierung von Datenverarbeitungsanwendungen für Stapel- und Streaming-Daten. Diese Fortschritte sind zwar spannend, aber sie bringen auch eine Reihe neuer Tools mit sich, die Architekten und Entwickler bei der Entwicklung moderner Datenverarbeitungslösungen kennen müssen.
Am Beispiel von Customer 360 und dem Internet der Dinge erklären Jonathan Seidman und Ted Malaska, wie man eine moderne Echtzeit-Big-Data-Plattform aufbaut, die diese Komponenten nutzt, um mehrere Datenquellen zuverlässig zu integrieren, Echtzeit- und Batch-Datenverarbeitung durchzuführen, große Datenmengen zuverlässig zu speichern und große Datenmengen effizient abzufragen und zu verarbeiten. Dabei werden Überlegungen und Best Practices für die Nutzung dieser Komponenten zur Implementierung von Lösungen erörtert, häufige Herausforderungen und deren Bewältigung behandelt und praktische Ratschläge für den Aufbau Ihrer eigenen modernen Echtzeit-Datenarchitekturen gegeben.
Die Themen umfassen:
- Beschleunigung von Datenverarbeitungsaufgaben wie ETL und Datenanalyse durch den Aufbau von Datenpipelines in nahezu Echtzeit unter Verwendung moderner Open-Source-Komponenten für Datenintegration und -verarbeitung
- Aufbau zuverlässiger und effizienter Datenpipelines, beginnend mit Quelldaten und endend mit vollständig verarbeiteten Datensätzen
- Bereitstellung von schnellen Datenanalysen für die Nutzer unter Verwendung moderner Speicher- und Abfrage-Engines
- Nutzung dieser Fähigkeiten zusammen mit anderen Tools, um den Nutzern anspruchsvolle maschinelle Lern- und Analysefunktionen zur Verfügung zu stellen
Vergessen Sie nicht, den Stand Nr. 1415 zu besuchen, um eine SnapLogic Enterprise Integration Cloud- oder eXtreme-Demo zu erhalten oder sich für eine kostenlose Testversion anzumelden (und einen Geschenkgutschein im Wert von 10 $ zu erhalten!) Sie nehmen außerdem an der Verlosung einer Sonos Playbar + eines Sonos One Sets teil! Wir sehen uns dort!