Tre motivi per spostare l'architettura dei dati on-premise in un'altra sede. cloud

5 minuti di lettura

La maggior parte delle aziende utilizza solo il 5-10% dei dati raccolti. Così stima Beatriz Sanz Sai, veterana da 20 anni nel campo dell'analisi avanzata e responsabile della pratica globale di dati e analisi di Ernst & Young. Sebbene sia impossibile convalidare una simile affermazione, il fatto è che molte organizzazioni raccolgono molti dati ma ne analizzano pochi.

I sistemi di gestione dei database legacy sono in gran parte responsabili di questa situazione. Essi assorbono tempo e risorse per archiviare, gestire e preparare i dati, ostacolando così le analisi.

L'ascesa dei big data non farà che peggiorare la situazione. Basti pensare ai molteplici dati generati ogni giorno da database relazionali, applicazioni SaaS, applicazioni mobili, annunci online e social media. E poi c'è l'Internet delle cose (IoT). Gartner prevede che entro il 2020 il nostro mondo sarà occupato da 20,4 miliardi di dispositivi IoT, 20 miliardi di oggetti che produrranno quantità cosmiche di dati. E non sono solo le grandi quantità di dati a minacciare di mettere in crisi i sistemi tradizionali; anche i dati stanno diventando sempre più eterogenei. Un'indagine rivela che, in media, le aziende utilizzano ben 1.181 servizi cloud , molti dei quali producono dati unici. Il debito tecnologico, così come le crescenti dimensioni e la complessità dei dati, probabilmente porteranno i sistemi legacy a un punto di rottura.

Per competere nell'era dei big data, le aziende devono guardare a cloud. Le moderne architetture di dati basate su cloud sono l'unica opzione possibile per superare i tre principali ostacoli che i sistemi legacy pongono agli analytics.

1. I pericoli del provisioning

Prima dell'avvento dei servizi di dati di cloud , le organizzazioni non avevano altra scelta che costruire, fornire e mantenere la propria infrastruttura di dati, un'operazione costosa e pesante dal punto di vista del codice. Ciò significava che ogni volta che era necessario memorizzare o interrogare più dati, bisognava assicurarsi di possedere la memoria e la potenza di calcolo necessarie per sostenerli. Di conseguenza, i reparti IT impiegavano molto tempo ed energia per misurare la RAM, acquistare hardware e storage aggiuntivo per i periodi di maggiore utilizzo, installare server e dedicarsi ad altre attività che, di per sé, non producevano informazioni sui dati.

Il provisioning dei server era solo un prerequisito ingombrante per l'analisi. Oggi è una barriera.

Oggi i provider di cloud computing, come Amazon, Microsoft e Google, sono in grado di gestire l'infrastruttura dei dati per voi. Attingendo da enormi centri dati ultraveloci, distribuiscono l'esatta quantità di storage e di potenza di calcolo di cui avete bisogno in un determinato momento. A differenza dei data warehouse on-premise, le alternative di cloud come Amazon Redshift, Snowflake e Google BigQuery consentono di scalare facilmente in base alle esigenze di storage ed elaborazione. E in alcuni casi lo fanno a un decimo del costo.

Soprattutto, i servizi dati di cloud liberano tempo per l'analisi. Chiedetelo a MANA Partners. La società di trading, tecnologia e gestione patrimoniale con sede a New York ha aumentato di 4 volte la produzione di ricerca quantitativa dopo aver adottato Google Cloud Platform, una soluzione IaaS (infrastructure as a service).

I limiti di archiviazione e di elaborazione non devono più ostacolare le vostre analisi.

2. Nessun self-service

Un altro problema cronico dei sistemi di gestione dei database on-premises è che richiedono una codifica troppo laboriosa. Solo chi ha un elevato acume tecnico - in genere pochi eletti all'interno dell'IT - è in grado di utilizzare questi sistemi. E anche loro faticano a usarli.

Come ci si può aspettare, il percorso verso gli analytics in un ambiente legacy è lungo e tortuoso. Uno sviluppatore esperto deve affrontare diverse fasi complicate, non ultima quella del processo di estrazione, trasformazione e caricamento (ETL). In questo caso, lo sviluppatore deve creare integrazioni e spostare i dati dai database di produzione a un data lake o a un data warehouse, in gran parte attraverso la scrittura di codice noioso. In un ambiente on-premises, questo processo può richiedere settimane o addirittura mesi. Nel frattempo, gli insight che potrebbero aiutare a ridurre i costi e a incrementare i ricavi non vengono scoperti. Questi problemi peggiorano man mano che si aggiungono altre fonti di dati.

Cloud Le alternative sono molto più facili da usare e praticamente eliminano del tutto la necessità di codificare. Ad esempio, SnapLogic, una soluzione di piattaforma di integrazione come servizio (iPaaS) basata su cloud, consente sia agli integratori privati che agli architetti di dati esperti di creare rapidamente pipeline di dati utilizzando un'interfaccia drag-and-drop. In un caso, un produttore multimiliardario di prodotti di bellezza ha ridotto i processi di integrazione da tre settimane a tre ore grazie a SnapLogic.

Si tratta di quasi 120 ore in più che possono essere dedicate all'acquisizione di nuove conoscenze attraverso l'analisi.

3. Le righe sono lente

Anche se i database legacy venissero privati della loro complessità e convertiti in applicazioni self-service, non sarebbero comunque in grado di fornire analisi veloci. Questo perché i sistemi on-premises memorizzano i dati con un orientamento a righe. Non importa che il team IT abbia speso una quantità spropositata di tempo per convertire i dati in righe e colonne ordinate per l'archiviazione. Quando si interroga una tabella basata su righe, il sistema deve passare al setaccio tutti i dati di ogni riga, compresi i campi irrilevanti, prima di estrarre i dati necessari. Questo comporta query lente e prestazioni scarse, soprattutto quando si richiede un set di dati di grandi dimensioni. I data warehouse on-premise limitano fortemente la capacità di creare report al volo, di recuperare rapidamente i dati e di eseguire query complesse.

Le tabelle orientate alle colonne, invece, ignorano i campi impertinenti e catturano rapidamente i dati necessari. Di conseguenza, sono in grado di fornire analisi veloci. Inoltre, gli archivi a colonne sono progettati per gestire l'oceano di dati eterogenei che permea il nostro mondo.

Per mettere questo dato in prospettiva, un cliente di Amazon ha migrato 4 miliardi di record di dati dal proprio data warehouse on-premises ad Amazon Redshift e ha registrato un miglioramento di 8 volte nelle prestazioni delle query. Inoltre, il sistema on-premises ha impiegato 748 secondi per completare una query, mentre Amazon Redshift ha elaborato la stessa query in 207 secondi.

Il tempo di attesa per ottenere informazioni è molto più breve con i data warehouse di cloud che con quelli tradizionali.

Il tempo scorre veloce

Gli investimenti in cloud servizi di dati continuano a salire. IDC prevede che la spesa globale per i servizi e le infrastrutture pubbliche cloud raggiungerà i 160 miliardi di dollari entro la fine del 2018, con un aumento del 23,2% rispetto all'anno precedente. Chi rimane inattivo, accontentandosi di rimanere in sede, si mette a rischio.

I negozi legacy faranno sempre più fatica a sostenere il peso dei big data. E mentre sono occupati a fare il provisioning dei server, a codificare a mano le integrazioni e a indebitarsi con la tecnologia, i loro concorrenti guidati da cloud useranno gli analytics per espandere il loro dominio nel settore.

Quanto possono sopravvivere le organizzazioni se utilizzano solo il cinque per cento dei dati raccolti? Non possiamo saperlo con certezza. Ma ciò che sta diventando più chiaro è che la quota di mercato appartiene a coloro che spostano l'architettura dei dati su cloud. Prima è, meglio è.

Ex vicepresidente del marketing di prodotto di SnapLogic

Stiamo assumendo!

Scoprite la vostra prossima grande opportunità di carriera.