Questo articolo è stato pubblicato originariamente su ITProPortal.
I dipendenti a monte e a valle della catena del valore sono desiderosi di immergersi nelle soluzioni di big data, alla ricerca di pepite d'oro di intelligenza che li aiutino a prendere decisioni più intelligenti, a far crescere le relazioni con i clienti e a migliorare l'efficienza aziendale. Per farlo, si sono trovati di fronte a una serie vertiginosa di tecnologie, dai progetti open source ai prodotti software commerciali, nel tentativo di far emergere i big data.
Oggi, la maggior parte dei titoli dei giornali e delle notizie si concentra su una qualche combinazione di Hadoop, Spark e Redshift, che possono essere tutti trampolini di lancio per il lavoro sui big data. È importante però fare un passo indietro e guardare a che punto siamo dell'evoluzione dei big data.
Per molti versi, i big data sono in piena fase di transizione. Hadoop sta raggiungendo la sua preadolescenza, essendo stato lanciato nell'aprile 2006 come progetto ufficiale di Apache e avendo poi conquistato il mondo del software come framework per l'archiviazione e l'elaborazione distribuita dei dati, basato su hardware di base. Apache Spark si sta affermando come motore di streaming "fulmineo" per l'elaborazione di dati su larga scala. Inoltre, stanno emergendo diverse piattaforme di data warehousing e analytics cloud , dai grandi nomi(Amazon Redshift, Microsoft Azure HDInsight e Google BigQuery) a quelli emergenti come Snowflake, Qubole e Confluent.
La sfida è che la maggior parte dei progressi dei big data nell'ultimo decennio è stata limitata alle grandi aziende con grandi team di ingegneria e scienza dei dati. I sistemi sono spesso complessi, immaturi, difficili da gestire e cambiano frequentemente, il che può andare bene se siete nella Silicon Valley, ma non va bene nel resto del mondo. E se siete un'azienda di beni di consumo come Clorox, o una banca di medie dimensioni nel Midwest, o una grande telco in Australia? È possibile farlo senza impiegare 100 ingegneri Java che conoscono a fondo la tecnologia?
In fin dei conti, la maggior parte delle aziende vuole solo dati migliori e risposte più rapide, ma non vuole i grattacapi tecnologici che ne derivano. Fortunatamente, la "mega-tendenza" dei big data si sta scontrando con un'altra mega-tendenza: cloud computing. Mentre Hadoop e altre piattaforme per i big data sono maturate lentamente, l'ecosistema cloud è maturato più rapidamente e cloud può ora contribuire a risolvere molti dei problemi che hanno ostacolato il progresso dei big data.
I problemi che i clienti hanno incontrato con Hadoop on-premise sono spesso gli stessi che hanno dovuto affrontare con i sistemi legacy on-premise: semplicemente non ci sono abbastanza persone giuste per fare tutto. Le aziende vogliono funzionalità all'avanguardia, ma non vogliono avere a che fare con bug, integrazioni non funzionanti e versioni in rapida evoluzione. Inoltre, i modelli di consumo stanno cambiando: vogliamo consumare dati, storage e calcolo su richiesta. Non vogliamo acquistare troppo. Vogliamo accedere all'infrastruttura quando e come vogliamo, con tutto ciò che ci serve, ma anche di più.
Il punto di svolta dei Big Data è nel Cloud
In breve, il punto di svolta per i big data sta per avvenire, e avverrà tramite cloud. La prima ondata di "big data tramite cloud" è stata semplice: aziende come Cloudera hanno messo il loro software su Amazon. Ma ciò che è "veramente cloud" è non dover gestire Hadoop o Spark: spostare la complessità in un'infrastruttura ospitata, in modo che qualcun altro la gestisca per voi. A tal fine, Amazon, Microsoft e Google offrono ora "Hadoop gestito" e "Spark gestito": voi vi preoccupate solo dei dati che avete, delle domande che avete e delle risposte che volete. Non è necessario creare un cluster, ricercare nuovi prodotti o preoccuparsi della gestione delle versioni. Basta caricare i dati e iniziare l'elaborazione.
La gestione dei big data tramite cloud presenta tre vantaggi significativi e non sempre ovvi: 1) Prevedibilità: l'onere dell'infrastruttura e della gestione passa ai fornitori di cloud e voi vi limitate a consumare servizi che potete scalare verso l'alto o verso il basso a seconda delle necessità; 2) Economia: a differenza di Hadoop on-premise, dove calcolo e storage erano mescolati, cloud separa calcolo e storage in modo che possiate effettuare il provisioning di conseguenza e trarre vantaggio dall'economia delle commodity; 3) Innovazione: i fornitori di cloud distribuiranno continuamente nuovi software, infrastrutture e best practice, in modo che possiate trarre il massimo vantaggio senza dover sostenere costi e tempi iniziali.
Certo, c'è ancora molto lavoro da fare, ma è più incentrato sui dati e sul business, e non sull'infrastruttura. La grande notizia per i clienti tradizionali (ben oltre la Silicon Valley) è che un'altra mega-tendenza sta rivoluzionando l'integrazione e il consumo dei dati: il passaggio al self-service. Grazie a nuovi strumenti e piattaforme, l'"integrazione self-service" rende facile e veloce la creazione di pipeline di dati automatizzate senza bisogno di codifica, mentre l'"analisi self-service" facilita la manipolazione dei dati da parte di analisti e utenti aziendali senza l'intervento dell'IT.
Nel complesso, queste tendenze stanno portando a una democratizzazione dei dati davvero entusiasmante, che avrà un impatto significativo su tutte le funzioni orizzontali e i settori verticali. I dati stanno diventando una risorsa più fluida, dinamica e accessibile per tutte le organizzazioni. L'IT non detiene più le chiavi del regno e gli sviluppatori non controllano più il flusso di lavoro. E proprio al momento giusto, visto che il volume e la velocità dei dati provenienti dai media digitali e sociali, dagli strumenti mobili e dai dispositivi edge minacciano di sopraffare tutti noi. Quando la promessa dell'Internet delle cose, dell'intelligenza artificiale e dell'apprendimento automatico comincerà a prendere piede, il flusso di dati sarà davvero inondante.
L'unica domanda che rimane è: Cosa volete fare con i vostri dati?
Ravi Dharnikota è Chief Enterprise Architect di SnapLogic.