Man mano che le aziende proseguono nel loro percorso di trasformazione digitale e imparano a conoscere i vantaggi delle architetture di big data, cercano di migrare i loro data lake su cloud per ottenere risparmi sui costi, sull'elaborazione dei dati e sulla scalabilità. Tuttavia, la connessione di ambienti di dati basati su cloud e la creazione di pipeline Apache Spark richiedono ampie conoscenze tecniche e risorse.
Con SnapLogic eXtreme, la nostra nuova soluzione per i big data, SnapLogic rende per la prima volta praticabile per le aziende l'elaborazione dei big data basata su cloud, offrendo flessibilità, scalabilità e riduzione delle spese operative (OpEx), oltre a ridurre la necessità di competenze specializzate per la gestione dei cluster di big data. SnapLogic consente inoltre alle aziende di vedere il ROI sugli investimenti in big data diventando veramente data-driven.
Elaborazione dei big data: Una breve storia
L'elaborazione dei big data per scoprire gli insight aziendali ha avuto un successo contrastante, con molte aziende che non sono riuscite a dimostrare un ROI convincente. All'inizio, le aziende elaboravano grandi volumi di dati costruendo un cluster Hadoop in sede, utilizzando una distribuzione come Cloudera, Hortonworks o MapR. I dati analizzati erano per lo più strutturati e richiedevano un'ingente spesa in conto capitale per l'acquisto dell'hardware necessario. Inoltre, Hadoop è un'entità complessa da gestire e monitorare che richiede competenze specialistiche e le persone con tali competenze sono scarse.
Poiché le aziende vedono aumentare i vantaggi aziendali derivanti dai big data, stanno creando o migrando la loro architettura di big data su cloud per sfruttare gli enormi risparmi sui costi operativi, la potenza di elaborazione dei dati quasi illimitata e le opzioni di scalabilità istantanea offerte da cloud .
Molte aziende stanno adottando la tecnica del "lift and shift", che consiste nel trasferire il cluster on-premise sul sito cloud. Questo comporta il vantaggio di non dover sostenere una spesa di capitale elevata per l'avvio del cluster e la sua messa in funzione. Tuttavia, poiché il cluster è ancora gestito e monitorato dall'azienda, questa strategia non risolve il problema del gap OpEx e delle competenze. Di conseguenza, le aziende sono ancora in attesa dei vantaggi promessi (riduzione degli OpEx, TTV più rapido e ROI).
Per la maggior parte delle imprese, la gestione e il monitoraggio degli ambienti Hadoop non aggiungono alcun vantaggio competitivo, per cui sono alla ricerca di un modo migliore per eseguire la trasformazione dei dati su scala. BDaaS fornisce un ambiente di trasformazione dei dati di questo tipo. Trattandosi di un servizio gestito, è possibile ridurre drasticamente il tempo dedicato alla gestione e al monitoraggio del cluster, consentendo alle aziende di concentrarsi sui loro principali vantaggi competitivi. Tuttavia, la connessione di ambienti di big data basati su cloud con diverse fonti di dati e la creazione di pipeline Apache Spark per la trasformazione dei dati richiedono conoscenze tecniche e risorse di codifica continue da parte degli ingegneri dei dati e dei gruppi IT principali, con conseguenti costi operativi proibitivi e un time-to-value più lungo.
Entrate in SnapLogic eXtreme
Con SnapLogic eXtreme, SnapLogic rende per la prima volta i big data basati su cloud praticabili per le aziende, offrendo flessibilità, scalabilità e riduzione degli OpEx. Gli ingegneri dei dati possono utilizzare SnapLogic eXtreme per ridurre i costi proibitivi e i requisiti di risorse che molte aziende devono affrontare quando costruiscono e gestiscono architetture di big data in cloud. Di conseguenza, gli ingegneri dei dati, gli analisti di business e altri possono concentrarsi sull'ottenimento di approfondimenti più tempestivi dai big data e sul miglioramento del processo decisionale e del time-to-market.
Un esempio di Customer 360
Tutte le aziende desiderano comprendere meglio i propri clienti e di solito hanno un'iniziativa per aiutarli a ottenere una visione a 360 gradi. Per garantire il punto di vista più ampio sul cliente, tuttavia, una delle sfide è rappresentata dal fatto che i dati dei clienti sono conservati in silos. Per ottenere una visione completa di un cliente, è necessario combinare e arricchire i dati dei clienti da più fonti. Innanzitutto, è necessario ingerire i dati dei clienti da un CRM basato su cloud, come Salesforce, dai log del clickstream del sito web, dai log del customer care dell'applicazione di assistenza clienti e dai feed dei social media, come Twitter. Queste fonti di dati contengono sia dati strutturati che semi-strutturati.
Tramite l'interfaccia grafica di SnapLogic, gli ingegneri dei dati possono sfruttare oltre 450 connettori intelligenti o Snaps precostituiti per creare pipeline di dati con un paio di clic e acquisire dati strutturati dai sistemi on-premise, come i database relazionali e le applicazioni basate su cloud(Salesforce), e dati semi-strutturati, come i social media di Twitter e i dati clickstream dal loro sito web. Tutti questi dati vengono acquisiti nel loro formato grezzo e finiscono nei loro servizi di archiviazione di data lake basati su cloud, come Amazon S3 o Azure Data Lake Store.
Utilizzando la stessa interfaccia grafica, gli ingegneri possono creare rapidamente pipeline Apache Spark trasformative con le funzionalità di plex effimero di SnapLogic per elaborare più facilmente i grandi volumi di dati provenienti da queste fonti. La prima pipeline Spark eseguita provoca l'avvio del cluster effimero Amazon EMR. Il cluster che viene avviato si basa sulla configurazione specificata nell'interfaccia utente. Le esecuzioni successive della pipeline riutilizzano il cluster esistente. Una volta completate tutte le elaborazioni e una volta che il cluster è rimasto inattivo per un certo periodo di tempo, il cluster viene terminato, risparmiando così preziosi OpEx. Una volta completate le trasformazioni, i dati vengono riportati nel data lake, in genere in un formato colonnare come Parquet.
Infine, i dati vengono trasmessi dal data lake basato su cloud ai sistemi finali, che possono includere data warehouse cloud , come Snowflake o strumenti di BI come Tableau.
Una piattaforma unificata
SnapLogic eXtreme fa parte della piattaforma di integrazione self-service leader di SnapLogic, integrazione aziendale Cloud (EIC) e può essere utilizzato per creare e inviare potenti trasformazioni Spark attraverso l'uso della sua interfaccia di programmazione visiva. La potente combinazione di EIC e SnapLogic eXtreme riduce i tempi, i costi e la complessità delle integrazioni di big data di cloud . Con un'architettura di dati completamente gestita in cloud, i clienti beneficiano di nessun CapEx, di un OpEx più basso e di nessun gap di competenze. Le complesse integrazioni di big data che prima richiedevano settimane o mesi ora possono essere realizzate in pochi giorni. Cosa c'è di strano?