Streaming dei dati e laghi di dati allo #StrataHadoop World

Ravi D L'esperto di big data e responsabile dell'architettura aziendale di SnapLogic, Ravi Dharnikota, è stato intervistato su Gestione delle informazioni raccontando le sue osservazioni sullo Strata+Hadoop World del mese scorso a San Jose. L'aspetto principale è che i partecipanti e le sessioni erano principalmente incentrati su streaming di dati, data lake e Apache Spark per l'analisi. Ha notato che: "Sebbene l'innovazione e il cambiamento continui nel settore dei big data forniscano miglioramenti rapidi e frequenti alla tecnologia, è difficile tenere il passo in un'organizzazione in cui ci sono priorità e progetti concorrenti".

Potete leggere le domande e risposte complete qui sotto.

Gestione delle informazioni: Quali sono i temi più comuni che ha sentito tra i partecipanti alla conferenza Strata+Hadoop World e in che modo questi temi si allineano con quanto si aspettava?

Ravi Dharnikota: Rispetto all'evento del 2015, quest'anno ci siamo allontanati un po' dalle discussioni accademiche sull'ultimo progetto Apache per passare a casi d'uso reali. Quest'anno ho sentito parlare molto di:

Streaming - Ingestione, elaborazione e analisi dei dati in streaming.
Data lake - Come fare il lago nel modo giusto; ingestione; governance; preparazione dei dati.
Spark - Un enorme spostamento verso il supporto delle tecnologie da eseguire su Spark come piattaforma.

IM: Quali sono le sfide più comuni che i partecipanti devono affrontare in materia di dati?
RD: Una delle sfide più comuni nella gestione dei dati è semplicemente la loro pervasività. Sono ovunque nell'organizzazione. È necessario un modo per riunirli tutti in un unico luogo, per renderli ricercabili e utilizzabili da tutti, con dei "guardrail".

L'altra sfida è che l'ecosistema dei big data è in continua evoluzione e può essere piuttosto rumoroso, con messaggi sovrapposti da parte dei fornitori e degli irriducibili dell'open source. Le organizzazioni che vogliono solo fare qualcosa per guidare le pratiche aziendali hanno bisogno di un aiuto da parte dei framework finali.

IM: Quali sono le cose più sorprendenti che ha sentito dai partecipanti?
RD: Nessuna di queste è veramente sorprendente, ma vale la pena di notarla:

I clienti si stanno rendendo conto che, per quanto aperta e flessibile sia la visione di un data lake, deve esserci una certa governance con controlli di accesso adeguati, audit e considerazioni sulla sensibilità dei dati. Inoltre, i dati devono essere facilmente ricercabili da chiunque cerchi i dati nel lago.

Il data lake non è solo Hadoop. Potrebbe trovarsi nel sito cloud di Amazon, Microsoft o Google.

Molte organizzazioni hanno sia Hortonworks che Cloudera nel loro cluster di data hub.

IM: Quali sono, secondo la vostra azienda, i problemi o le sfide più importanti per i dati nel 2016?
RD: Le organizzazioni al di fuori dell'industria tecnologica hanno bisogno di una guida e di un aiuto per democratizzare i dati.

Manca una "best practice" definita dal settore per gestire bene i dati nel moderno contesto dei big data.

La mancanza di competenze in materia di big data continuerà a richiedere piattaforme e strumenti self-service che astraggano la tecnologia e la rendano facile da usare.

Sebbene l'innovazione e il cambiamento continui nel settore dei big data forniscano miglioramenti rapidi e frequenti alla tecnologia, è difficile tenere il passo in un'organizzazione in cui ci sono priorità e progetti concorrenti.

IM: In che modo questi temi e queste sfide si riferiscono alla strategia di mercato della vostra azienda per quest'anno?
RD: La strategia di SnapLogic per i big data è incentrata sulla possibilità di tenere il passo con i cambiamenti dell'ecosistema dei big data per le organizzazioni che non sono in grado di investire risorse per creare e modificare il proprio sistema di spostamento, gestione e consumo dei dati.

La nostra strategia si basa sull'analisi del Data Lake nel suo complesso e su ciò di cui un'azienda ha bisogno per realizzare le proprie iniziative di gestione dei dati. Ciò potrebbe includere l'esame di aspetti quali la sicurezza, lo streaming, i formati di archiviazione, la governance, i metadati, ecc.

Prossimi passi:

SnapLogic sarà presente allo Strata+Hadoop World del mese prossimo a Londra. Fermatevi allo stand #K111 per vedere una demo dal vivo dell'integrazione dei big data in azione e incontrare il team!
Guardate Ravi mentre dà una dimostrazione incentrata sull'integrazione dei big data nel nostro recente webinar con l'analista del settore dei big data Doug Henschen. Consultate la registrazione completa qui. Ravi offrirà anche una dimostrazione di Big Data in Motion durante il prossimo SnapLogic Live.
Consultate qui i due whitepaper dell'esperto del settore Mark Madsen sul Data Lake.
Leggete gli Otto requisiti di gestione dei dati per il Data Lake aziendale di Craig Stewarts.

Categoria: Dati

Argomenti: Lago di dati Hadoop

Streaming dei dati e laghi di dati a #StrataHadoop World

Blog correlati

Piano dati e piano di controllo: Qual è la differenza?

Che cos'è la piattaforma dati Snowflake?

Il team SnapLogic va a Londra per lo #StrataHadoop World