SnapLogic si reca a San Francisco per lo Spark Summit 2016

Il team Big Data allo Spark Summit di San Francisco — Il team SnapLogic Big Data allo Spark Summit di San Francisco

Il team Big Data di SnapLogic ha partecipato allo Spark Summit la scorsa settimana a San Francisco. Quest'anno hanno partecipato circa 2.500 persone e sono intervenuti diversi relatori di alto profilo, come Matei Zaharia, il creatore di Spark, Jeff Dean di Google, Andrew Ng di Baidu e rappresentanti di aziende tecnologiche influenti come Amazon, Microsoft e Intel.

L'evento più importante riguardava la versione 2.0 di Spark, che continua la tendenza a costruire un motore unificato, a migliorare le API di alto livello e a integrarsi ampiamente con le librerie di analisi dei dati e di apprendimento automatico. In Spark 2.0, il motore Structured Streaming unifica l'elaborazione batch e quella in streaming. Inoltre, il motore supporta la stessa API Spark SQL introdotta nelle versioni precedenti di Spark e supporta ancora le ottimizzazioni delle query sviluppate per essa. Nel complesso, Spark 2.0 dovrebbe ridurre i costi di sviluppo e migliorare le prestazioni, mantenendo la compatibilità con le versioni precedenti.

Una grande spinta della conferenza è stata il rilascio di una "community edition" che rende gratuito l'apprendimento e la creazione di applicazioni con Spark. Ci sono state molte buone dimostrazioni, tra cui quella di Databricks. Sembra un ottimo punto di partenza per iniziare a utilizzare Spark, in quanto elimina gran parte della complessità operativa e offre molte risorse di apprendimento.

Uno dei messaggi più interessanti delle conferenze è che diversi problemi tradizionalmente "difficili" di intelligenza artificiale (IA), come il riconoscimento vocale, l'elaborazione delle immagini e la risoluzione di problemi non strutturati, sono stati recentemente oggetto di importanti scoperte. Andrew Ng di Baidu ha descritto la sfida dell'IA come simile al volo spaziale: la costruzione di un razzo richiede il giusto equilibrio tra motore e carburante, così come il successo nell'IA richiede il giusto equilibrio tra sofisticati modelli di apprendimento automatico e ampie quantità di dati. Lo Spark Summit è stato piuttosto ottimista nel ritenere che questi progressi daranno il via a una "rivoluzione dell'intelligenza" che avrà lo stesso impatto della rivoluzione industriale del XX secolo.

Altre osservazioni sull'evento:

Tutti i relatori del corso sui casi d'uso a cui ho partecipato (Uber, Netflix, Airbnb) hanno utilizzato una qualche forma di ETL, ma nessuno strumento sembrava essere preferito. L'ingestione e la preparazione dei dati sembrano ancora un punto dolente per gli ingegneri dei dati.
Tutti parlano di "pipeline di dati", che si adatta perfettamente alla terminologia di SnapLogic.
Parquet è il formato preferito per l'archiviazione dei big data.
MapReduce è ormai considerato antiquato, anche Doug Cutting era d'accordo, ma le aziende hanno investito in quell'infrastruttura e in quella formazione, quindi resterà in circolazione. Un ostacolo all'adozione di Spark in Netflix (secondo Kurt Brown) è stato trovare sviluppatori con esperienza in Spark. Questo è significativo per le pipeline di dati Spark di SnapLogic e per Hadooplex, in quanto consente alle persone di iniziare a utilizzare Spark senza avere esperienza con le API e di riutilizzare parte dell'esperienza Yarn a cui le persone sono state esposte attraverso MapReduce.

Vertice Spark 2016 — Membri del team SnapLogic Big Data allo Spark Summit 2016

Nel complesso, si è trattato di un grande evento per capire in che direzione si sta muovendo Spark e come le persone lo stanno utilizzando. È stata anche una buona cassa di risonanza per alcuni degli obiettivi di integrazione dei big data di SnapLogic: investire in Parquet, Spark, IoT e streaming, che sembrano essere tutti in linea con la comunità. Non vediamo l'ora di adottare questa esperienza nel lavoro che stiamo svolgendo in SnapLogic".

Se siete interessati a saperne di più su come SnapLogic funziona con Spark o con i Big Data, visitate la nostra pagina dei video per vedere i coinvolgenti webinar e le dimostrazioni di SnapLogic. Siamo anche alla ricerca di sviluppatori senior di Big Data, quindi unitevi al nostro team Big Data!

Categoria: Notizie

Argomenti: Conferenza sui Big Data

SnapLogic si reca a San Francisco per lo Spark Summit 2016

Blog correlati

Connettere i dati, potenziare la collaborazione: I punti salienti del primo gruppo utenti francese di SnapLogic

Elevare l'integrazione generativa mette SnapLogic sotto i riflettori nell'ultimo rapporto degli analisti tPaaS

Quando due sono meglio di uno - SnapLogic è ora il visionario più avanzato nell'ultimo iPaaS MQ