Streaming dei dati e laghi di dati a #StrataHadoop World

Ravi DL'esperto di big data e responsabile dell'architettura aziendale di SnapLogic, Ravi Dharnikota, è stato intervistato su Gestione delle informazioni raccontando le sue osservazioni sullo Strata+Hadoop World del mese scorso a San Jose. L'aspetto principale è che i partecipanti e le sessioni erano principalmente incentrati su streaming di dati, data lake e Apache Spark per l'analisi. Ha notato che: "Sebbene l'innovazione e il cambiamento continui nel settore dei big data forniscano miglioramenti rapidi e frequenti alla tecnologia, è difficile tenere il passo in un'organizzazione in cui ci sono priorità e progetti concorrenti".

Potete leggere le domande e risposte complete qui sotto. 

Gestione delle informazioni: Quali sono i temi più comuni che ha sentito tra i partecipanti alla conferenza Strata+Hadoop World e in che modo questi temi si allineano con quanto si aspettava?

Ravi Dharnikota: Rispetto all'evento del 2015, quest'anno ci siamo allontanati un po' dalle discussioni accademiche sull'ultimo progetto Apache per passare a casi d'uso reali. Quest'anno ho sentito parlare molto di:

  • Streaming - Ingestione, elaborazione e analisi dei dati in streaming.
  • Data lake - Come fare il lago nel modo giusto; ingestione; governance; preparazione dei dati.
  • Spark - Un enorme spostamento verso il supporto delle tecnologie da eseguire su Spark come piattaforma.

IM: Quali sono le sfide più comuni che i partecipanti devono affrontare in materia di dati?
RD: Una delle sfide più comuni nella gestione dei dati è semplicemente la loro pervasività. Sono ovunque nell'organizzazione. È necessario un modo per riunirli tutti in un unico luogo, per renderli ricercabili e utilizzabili da tutti, con dei "guardrail".

L'altra sfida è che l'ecosistema dei big data è in continua evoluzione e può essere piuttosto rumoroso, con messaggi sovrapposti da parte dei fornitori e degli irriducibili dell'open source. Le organizzazioni che vogliono solo fare qualcosa per guidare le pratiche aziendali hanno bisogno di un aiuto da parte dei framework finali.

IM: Quali sono le cose più sorprendenti che ha sentito dai partecipanti?
RD: Nessuna di queste è veramente sorprendente, ma vale la pena di notarla:

I clienti si stanno rendendo conto che, per quanto aperta e flessibile sia la visione di un data lake, deve esserci una certa governance con controlli di accesso adeguati, audit e considerazioni sulla sensibilità dei dati. Inoltre, i dati devono essere facilmente ricercabili da chiunque cerchi i dati nel lago.

Il data lake non è solo Hadoop. Potrebbe trovarsi nel sito cloud di Amazon, Microsoft o Google.

Molte organizzazioni hanno sia Hortonworks che Cloudera nel loro cluster di data hub.

IM: Quali sono, secondo la vostra azienda, i problemi o le sfide più importanti per i dati nel 2016?
RD: Le organizzazioni al di fuori dell'industria tecnologica hanno bisogno di una guida e di un aiuto per democratizzare i dati.

Manca una "best practice" definita dal settore per gestire bene i dati nel moderno contesto dei big data.

La mancanza di competenze in materia di big data continuerà a richiedere piattaforme e strumenti self-service che astraggano la tecnologia e la rendano facile da usare.

Sebbene l'innovazione e il cambiamento continui nel settore dei big data forniscano miglioramenti rapidi e frequenti alla tecnologia, è difficile tenere il passo in un'organizzazione in cui ci sono priorità e progetti concorrenti.

IM: In che modo questi temi e queste sfide si riferiscono alla strategia di mercato della vostra azienda per quest'anno?
RD: La
strategia di SnapLogic per i big data è incentrata sulla possibilità di tenere il passo con i cambiamenti dell'ecosistema dei big data per le organizzazioni che non sono in grado di investire risorse per creare e modificare il proprio sistema di spostamento, gestione e consumo dei dati.

La nostra strategia si basa sull'analisi del Data Lake nel suo complesso e su ciò di cui un'azienda ha bisogno per realizzare le proprie iniziative di gestione dei dati. Ciò potrebbe includere l'esame di aspetti quali la sicurezza, lo streaming, i formati di archiviazione, la governance, i metadati, ecc.


Prossimi passi:

Categoria: Dati
Argomenti: Lago di dati Hadoop

Stiamo assumendo!

Scoprite la vostra prossima grande opportunità di carriera.