Subito dopo le festività del Ringraziamento, persone da tutto il mondo si sono recate a Las Vegas per una delle conferenze più importanti dell'anno: Amazon Web Services (AWS) re:Invent. Il team di SnapLogic era presente in forze, per aumentare la consapevolezza, incontrare clienti, partner e potenziali clienti. Michael Nixon di SnapLogic ha presentato una splendida sessione teatrale su come le aziende possono "curare la complessità dell'architettura dei dati Cloud ". Se non eravate presenti o se non avete avuto la possibilità di assistere a nessuno dei keynote, ecco i temi chiave dell'evento.
La crescente importanza della gestione, della governance e della condivisione dei dati
Poiché le organizzazioni si trovano ad affrontare una crescita esponenziale dei dati, hanno bisogno di strumenti per gestirli e governarli in modo efficace. Inoltre, per offrire un'esperienza superiore ai clienti, hanno bisogno di strumenti per condividere i dati senza copiarli.
AWS ha annunciato Amazon DataZone che fornisce controlli a grana fine per governare l'accesso ai dati. Fornisce inoltre un catalogo di dati alimentato da ML con il quale gli utenti possono scoprire le fonti di dati specificando i termini aziendali. Altri miglioramenti chiave sono stati la funzione Glue Data Quality che consente ai team di misurare, monitorare e gestire la qualità dei dati e la funzione di governance e auditability per lo sviluppo ML end-to-end per Amazon SageMaker.
Per evitare ritardi e costi associati allo spostamento dei dati, Amazon ha realizzato l'interoperabilità tra vari servizi AWS come Redshift, SageMaker e Athena. Amazon ha anche introdotto un controllo centralizzato degli accessi per gestire la condivisione dei dati di Redshift e offrire un'esperienza migliore.
Il concetto di rete di dati è ottimo. Come lo implementate in pratica?
La rete di dati offre un modello operativo eccellente che consente agli esperti di dominio di essere proprietari dei prodotti di dati. Questo modello di proprietà distribuita alleggerisce i team di dati centrali, che possono così concentrarsi sulle questioni operative e strategiche della loro architettura di dati. Ma non sono in molti ad averlo messo in pratica, quindi è stato bello imparare dalle organizzazioni che hanno costruito una rete di dati o che hanno aiutato i loro clienti a costruirne una.
Capital One ha realizzato la sua rete di dati attraverso un approccio a due livelli che prevedeva:
- Definire standard comuni per la struttura dell'organizzazione, la curatela dei metadati, gli standard di qualità dei dati, i diritti comuni basati sulla sensibilità dei dati e la loro gestione.
- Creare esperienze utente eccellenti per gli editori di dati, i consumatori di dati, i gestori del rischio e i proprietari di dati aziendali.
Il team di AWS ha condiviso come è possibile sfruttare vari servizi AWS per implementare un modello di rete di dati. Gli utenti possono sfruttare vari servizi di dati come DynamoDB, EMR, Aurora, SageMaker, Redshift o OpenSearch per portare i dati operativi e di analisi in un data lake Amazon S3. Possono quindi utilizzare Lake Formation Data Catalog per catalogare tutti i dati disponibili e definire gli standard di governance per ciascuno di essi. Gli esperti del settore possono quindi pubblicare i set di dati governati ai consumatori interni ed esterni all'organizzazione utilizzando AWS Data Exchange.
Semplificare la complessità dell'architettura dei dati
Il panorama degli strumenti per i dati continua a evolversi e, man mano che le organizzazioni adottano strumenti per il caricamento dei dati, l'ETL/trasformazione dei dati, l'integrazione dei dati, l'ETL inverso, le integrazioni tra applicazioni e la gestione dei servizi di dati basati su API, si ritrovano con un'architettura dei dati complessa. Mentre alcuni team possono soddisfare le loro esigenze a breve termine, i team IT e, a loro volta, l'organizzazione si ritrovano con un'abbondanza di strumenti e una visione frammentata delle integrazioni. E se le cose vanno male, o se si deve eseguire il debug di qualcosa, c'è una confusione da risolvere per arrivare alla causa principale. AWS e altri fornitori se ne rendono conto e vogliono contribuire a semplificare l'architettura. AWS ha presentato la sua visione zero-ETL, che in realtà consiste nell'automatizzare la maggior parte dei processi ETL. Come primo passo verso questa visione, AWS ha annunciato l'integrazione tra Amazon Aurora e Redshift.
Il team di SnapLogic ha incontrato al nostro stand molte persone che volevano semplificare la loro architettura dei dati. Alcuni volevano abbandonare le piattaforme ETL tradizionali, come Informatica o IBM DataStage. Alcuni si sentivano limitati dai data loader, che hanno prezzi imprevedibili e poche funzionalità. Inoltre, alcuni cercavano un'alternativa a strumenti pesanti dal punto di vista del codice, come MuleSoft, o volevano potenziare i team aziendali. Il tema di fondo di tutte queste conversazioni era il desiderio delle organizzazioni di semplificare l'architettura dei dati combinando più strumenti in uno solo.
SnapLogic vi aiuta a risolvere la complessità dell'architettura dei dati di cloud con un'unica piattaforma in grado di eseguire ETL, ELT, integrazione App-to-App, Reverse-ETL e gestione delle API sia per gli utenti tecnici che per quelli aziendali, con implementazioni ibride, il tutto in un'unica esperienza utente senza soluzione di continuità.
Ci auguriamo di vedervi a un evento AWS vicino a voi, ma nel frattempo, se volete saperne di più su SnapLogic, fatecelo sapere e saremo lieti di illustrarvelo.