Ieri SnapLogic ha ospitato un webinar che ha visto protagonisti Doug Henschen di Constellation Research chiamato Democratizzare il lago di dati: Lo stato della gestione dei Big Data in azienda. Doug ha dato il via ai lavori ripercorrendo la situazione in cui ci trovavamo e quella in cui ci troviamo oggi con alcuni esempi convincenti tratti da La seconda età delle macchinedi Erik Brynjolfsson e Andrew McAfee. Quando si parla della potenza dell'informatica moderna, ad esempio, nel 1996 il U. S ASCI Rosso presso i Sandia Labs costava 55 milioni di dollari, era grande 1.600 metri quadrati e aveva una potenza di calcolo di 1,8 Teraflops. Nel 2006 la PlayStation 3 di Sony è stata venduta a 499 dollari con dimensioni di 4 x 12 x 10 pollici e poteva gestire 1,8 Teraflops di potenza di calcolo. Incredibile! Doug ha poi parlato dell'impatto dell'informatica distribuita e di come si è evoluto il software (si pensi a Kasparov contro Big Blue rispetto alla partita di scacchi sul vostro portatile di oggi).
Certo, alcuni di questi dati sono spesso discussi e non mancano le statistiche sull'impatto dei big data in ogni settore e nella vita di tutti i giorni, ma ciò che mi è piaciuto molto del messaggio di Doug è stata l'importanza di concentrarsi su ciò che effettivamente genera valore aziendale. Utilizzate i big data per migliorare la comprensione analitica, ma ricordate che "i big data sono solo una parte della tendenza alla digital disruption".
La presentazione di Doug ha esaminato il mercato di Hadoop oggi, notando che il segmento in più rapida crescita è il passaggio a cloud. Hadoop è stato accettato come piattaforma standard con una crescente adozione nelle aziende, ma Spark è sicuramente l'acceleratore. Sul tema del data lake, Doug ha sottolineato una serie di punti importanti:
- Non si tratta solo di nuovi tipi di dati. Spesso si tratta di dati che le organizzazioni non potevano permettersi di riqualificare o analizzare praticamente in passato.
- Non è un sostituto di un data warehouse aziendale: c'è ancora bisogno di quelle che lui chiama "interrogazioni industrializzate su dati noti".
- Si tratta di integrare nuovi dati, con l'analisi proattiva e predittiva come motore comune.
- Un cluster può trasformarsi in una palude senza un'infrastruttura ben ordinata.
Prima di immergersi nei dettagli del data lake aziendale e di esaminare i fornitori di ogni categoria, la conversazione si è concentrata sui casi d'uso specifici dei big data per settore. Sono stati condivisi esempi specifici di casi di studio su cui ha lavorato: dall'analisi e ottimizzazione delle campagne nel marketing e nella pubblicità digitale, all'archiviazione, al riciclaggio di denaro nei servizi finanziari, all'ottimizzazione della supply chain nella vendita al dettaglio, alle iniziative di customer churn nelle telecomunicazioni, all'analisi delle frodi nei sinistri nelle assicurazioni.
Vi invito a guardare l'intera presentazione qui. Analogamente ad alcuni esempi di architettura di data lake e whitepaper che abbiamo recentemente condiviso sul blog di SnapLogic, ci sono una serie di solide conclusioni su come pensare al data lake rispetto all'infrastruttura di dati esistente. La conclusione? Come ha scritto Doug sul suo blog, Hadoop ha 10 anni e, come tutti i genitori sanno, è importante passare del tempo con i propri figli, cercare di mitigare i rischi e fissare limiti adeguati man mano che maturano. Lo stesso vale per i vostri dati: conoscete i vostri dati, i vostri utenti e i vostri rischi e stabilite i limiti appropriati lungo la vostra curva di maturità.
Come settore, dobbiamo democratizzare Hadoop e semplificare gli sforzi per creare data lake. Ci stiamo muovendo verso un'era più cognitiva e la monetizzazione dei dati è una tendenza molto diffusa, ma il "viaggio verso il digitale non può essere compiuto senza la connessione". Per quanto riguarda la strategia di integrazione dei dati, è necessario assicurarsi che sia in grado di gestire cloud, i servizi e l'arricchimento dei dati. Ma pensiamo più in grande: in che modo un data lake può dare impulso a nuove attività e modelli di dati?
Vorrei ringraziare Doug Henschen e Constellation Research per l'ottima panoramica del mercato e la discussione. C'è molto altro che non ho trattato nella presentazione completa, che è disponibile sul sito web di SnapLogic. Vi lascio con questa diapositiva, che riassume ciò che gli utenti di Hadoop dicono oggi: