Pubblicato originariamente su Data Centre Review.
La trasformazione digitale sta rivoluzionando l'approccio IT di molte organizzazioni e i dati sono al centro di tutto. Di conseguenza, le organizzazioni stanno subendo un cambiamento significativo per quanto riguarda la gestione, l'archiviazione e l'elaborazione dei dati.
Per gestire i big data in un passato non molto lontano, le aziende elaboravano grandi volumi di dati costruendo un cluster Hadoop on-premise utilizzando una distribuzione commerciale come Cloudera, Hortonworks o MapR.
I dati analizzati erano per lo più strutturati e richiedevano un'ingente spesa in conto capitale per l'acquisto dell'hardware necessario. Inoltre, Hadoop è un'infrastruttura complessa da gestire e monitorare, che richiede alle organizzazioni l'impiego di persone con competenze specialistiche, che sono rare da reperire.
Per affrontare questi problemi, molte organizzazioni si sono rivolte al sito cloud. Tuttavia, i vantaggi promessi dallo spostamento dei progetti di big data sul sito cloud non si sono realizzati per la maggior parte delle organizzazioni e, di conseguenza, i data lake vengono ancora lasciati in sede.
Verso le nuvole
Creando o migrando la propria architettura di big data su cloud, le organizzazioni possono trarre vantaggio da un enorme risparmio sui costi operativi, da una potenza di elaborazione dei dati quasi illimitata e dalle opzioni di scalabilità istantanea offerte da cloud . Inoltre, non devono sostenere grandi spese di capitale o preoccuparsi di avere una conoscenza approfondita di Hadoop.
Molte aziende stanno attraversando questa fase di "lift and shift", in cui spostano il loro cluster di dati on-premise sul sito cloud. Ma storicamente questa operazione ha comportato anche problemi intrinseci, e molte delle sfide legate allo spostamento di progetti di big data sul sito cloud si sono concentrate semplicemente sull'inserimento dei dati giusti nel posto giusto.
Si tratta di competenze e costi
Spostare i big data su cloud sembra abbastanza semplice. Ma la migrazione dei data lake on-premise su cloud e la successiva connessione degli ambienti di big data basati su cloud con diverse fonti di dati, nonché la creazione di pipeline Apache Spark per la trasformazione dei dati, richiedono conoscenze tecniche elevate e risorse di codifica continue da parte dei data engineer e dei gruppi IT principali.
Gli sviluppatori devono scrivere codice per integrarsi con l'interfaccia di programmazione (API) e i meccanismi di autenticazione di ciascuna applicazione, consentendo così ai dati di spostarsi liberamente tra le applicazioni e il data lake. Si tratta di un processo che non solo richiede molto tempo, ma è anche soggetto a errori, due realtà che si amplificano nella fase di manutenzione dei progetti di big data basati su cloud.
Come per qualsiasi altro progetto software, il codice decade nel tempo e deve essere aggiornato. Se lo sviluppatore che ha scritto il codice lascia l'azienda, spesso svanisce anche la capacità dell'organizzazione IT di comprendere la pipeline utilizzata a livello di codice.
Questo dispendio di tempo per il personale IT critico è uno dei maggiori problemi che le organizzazioni hanno dovuto superare nel passaggio a progetti di big data basati su cloud. La gestione e il monitoraggio intensivi richiesti si traducono in costi operativi proibitivi, in un time-to-value più lungo e in una strategia che non affronta il gap di OpEx e di competenze che sta emergendo costantemente.
Trovare persone con le competenze e l'esperienza necessarie per costruire pipeline di big data e cloud è un processo difficile. Non sorprende che ciò sia influenzato dall'attuale carenza di competenze nel panorama IT.
Una ricerca di Experis ha dimostrato che la domanda di competenze e professionisti dei big data è cresciuta del 78% nell'ultimo anno, mentre la domanda di competenze e professionisti di cloud è cresciuta del 30% nello stesso arco di tempo.
Con queste persone così poco disponibili, se riuscite ad averle nel vostro team IT, averle concentrate esclusivamente sulla gestione e sulla manutenzione dell'ambiente Big Data, sia prima che durante e dopo la migrazione a cloud , è francamente uno spreco di risorse. Questo ha anche un forte impatto sul secondo grande problema del passaggio a cloud : i costi.
Se impiegate persone altamente qualificate, volete che forniscano vantaggi significativi e strategici all'azienda. Per concentrarsi su compiti e progetti di maggior valore che aiutino l'organizzazione a innovare. La flessibilità e la scalabilità di cloud possono essere un enorme vantaggio per la spinta all'innovazione. Ma il time-to-innovation proposto, identificato all'inizio della migrazione a cloud , non sarà mai realizzato se i team si concentrano esclusivamente sulla gestione dell'infrastruttura per far funzionare il progetto Big Data.
Comprare o costruire
La soluzione a questo problema è relativamente semplice e si riduce al binomio acquisto/costruzione. A meno che non siate Google, è probabile che non abbiate intenzione di autocostruire ogni aspetto della vostra proprietà informatica. Quindi perché dovreste autocostruirvi anche tutte le connessioni di cui avete bisogno?
Per far sì che i progetti di big data fioriscano prima nel sito cloud , le organizzazioni dovrebbero puntare all'implementazione di un'architettura di dati completamente gestita, che comprenda l'integrazione dei dati (iPaaS), l'elaborazione (BDaaS) e lo storage (SaaS).
In questo modo, le organizzazioni dovrebbero essere in grado di distribuire senza problemi grandi set di dati da e verso i loro data lake basati su cloud, indipendentemente dalla provenienza dei dati. Questo approccio può anche incrementare la produttività, eliminando le pesanti attività manuali di aggiunta di informazioni e di trasformazione dei dati, consentendo ai team di concentrarsi sulle attività che generano valore.
Supportando questa architettura di dati gestiti con il self-service, le organizzazioni possono liberare ancora più tempo all'interno del team IT. L'integrazione self-service consente alle aziende di creare pipeline di dati automatizzate in modo semplice e veloce, senza dover ricorrere alla codifica, mentre l'analisi self-service consente agli analisti e agli utenti aziendali di manipolare i dati senza l'intervento dell'IT.
Utilizzando strumenti self-service come questo, non sono solo le organizzazioni con team IT completi a poterne beneficiare, ma anche le aziende che faticano a reclutare talenti di codifica possono sviluppare le proprie pipeline di big data cloud come parte della loro architettura di dati gestiti in cloud.
Eliminare le complessità
L'esecuzione di progetti di big data in cloud dovrebbe essere semplice. Tutte le organizzazioni, a prescindere dalle dimensioni, dovrebbero essere in grado di sfruttare tutti i vantaggi che cloud offre non appena vengono messe in funzione, e non a distanza di anni. Solo facendo un passo indietro nella fase di pianificazione ed eliminando le complessità legate alla migrazione e all'integrazione di cloud , le aziende saranno finalmente in grado di utilizzare i loro progetti di big data per l'innovazione e per fornire valore al business.