I dati sono una risorsa essenziale di cui ogni azienda ha bisogno per competere efficacemente nell'economia odierna. Tuttavia, il valore delle risorse di dati può essere realizzato solo quando vengono utilizzate in modo strategico, operativo, coerente e accurato in tutta l'azienda. Questo è stato un compito arduo. Oggi le aziende si rivolgono ai data-as-a-service (DaaS) come parte della loro strategia sui dati cloud per garantire alti livelli di SLA, governance dei dati, accuratezza ed elevata disponibilità richiesti dai clienti, dalla strategia aziendale e dai processi aziendali. Per sfruttare appieno un approccio DaaS, è necessario disporre di una moderna architettura dei dati e di una roadmap e una metodologia per raggiungerla.
Che cos'è l'architettura dei dati?
Progettata da architetti dei dati, l'architettura dei dati standardizza il modo in cui le aziende raccolgono, archiviano, trasformano, distribuiscono e utilizzano i dati allo scopo di aiutare gli analisti dei dati e le persone dell'organizzazione a prendere decisioni migliori basate sulla business intelligence in tempo reale. L'architettura dei dati è alla base della modellazione dei dati e dell'architettura delle informazioni, che rendono i dati utili all'interno dell'organizzazione.
Sebbene l'architettura dei dati non sia nuova, la moderna architettura dei dati aziendali (o architettura dei dati moderna) lo è e si è evoluta con il passaggio sempre più frequente delle aziende a cloud. Solo cloud consente la velocità, la scalabilità e la facilità d'uso necessarie per rendere efficace la moderna architettura dei dati. Man mano che le aziende passano a infrastrutture basate su cloud, anche la loro architettura dei dati si trasforma.
Che cos'è la moderna architettura dei dati?
Una moderna architettura dei dati si concentra sull'allineamento dei dati alle funzionalità offerte da cloud. L'architettura dei dati tradizionale si basava su modelli di dati on-premise che richiedevano molto tempo per l'elaborazione e la gestione dei dati. Con l'astrazione dell'infrastruttura da cloud, la moderna architettura dei dati si concentra sulla semplificazione dell'accesso ai dati e sulla loro massima utilità per l'azienda e i clienti. Facilita la facilità, la velocità, la collaborazione, l'analisi in tempo reale e la coerenza.
La moderna architettura dei dati è:
- Costruito per essere consumato dagli utenti finali. Il sito cloud consente agli utenti finali di determinare i dati di cui hanno bisogno per le decisioni aziendali e agli architetti dei dati di progettare un accesso ai dati che fornisca ciò di cui hanno bisogno.
- Automatizzate con pipeline e flussi di dati. Nessuno ha il tempo di aspettare un'elaborazione lenta dei dati. Con cloud e l'integrazione dei dati, le aziende possono automatizzare l'intero processo di gestione dei dati, in modo che questi scorrano liberamente e senza intoppi ovunque debbano andare nell'organizzazione, pur mantenendo la governance dei dati. L'integrazione dei dati è fondamentale per garantire che ogni parte dell'insieme sia collegata.
- Curato da AI/ML. La moderna architettura dei dati aziendali sfrutta la potenza dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML) per automatizzare l'elaborazione dei dati, riconoscere nuovi tipi di dati, ripulire i dati, risolvere i problemi di qualità dei dati, eseguire il data mining, garantire il mantenimento degli standard dei dati e far emergere analisi e approfondimenti sui dati. L'AI/ML è fondamentale per la velocità e la precisione dell'automazione.
- Scalabile per soddisfare richieste imprevedibili. I dati vengono generati e consumati a ritmi straordinari e, poiché le aziende devono far fronte alle fluttuazioni della domanda dei consumatori, devono essere in grado di scalare i dati verso l'alto e verso il basso, in modo automatico e conveniente.
- Condivisibile per una collaborazione affidabile. La condivisione dei dati è fondamentale per garantire che tutti lavorino con la stessa fonte di verità. I dati condivisi contribuiscono inoltre ad abbattere i silos dipartimentali e a favorire una collaborazione più semplice e affidabile.
- Sicurezza di progetto. Per la maggior parte delle aziende, i dati sono il bene più prezioso. La moderna architettura dei dati tiene conto della sicurezza dei dati con accesso e autorizzazione controllati, nonché della conformità alle leggi e ai regolamenti sulla privacy dei dati, come il GDPR e l'HIPAA.
Se si sta creando un'architettura di dati da zero in cloud, è facile inserire queste caratteristiche. Ma la maggior parte delle aziende si trova a cavallo di infrastrutture legacy on-premise con cloud e spesso multicloud. I loro dati risiedono in più luoghi e sono in genere molto isolati. Le migrazioni dei dati verso cloud e le integrazioni dei dati sono una priorità.
Oltre alle sei caratteristiche dell'architettura dei dati moderna, dovrete anche assicurarvi che il vostro progetto faciliti i seguenti aspetti:
- Supporta il passaggio al self-service e a più tipi di utenti (integratori, data scientist, leader aziendali, stakeholder).
- Consente di creare un'impresa iperconnessa (si pensi ai dati come ai nervi che collegano ogni parte del corpo, trasmettendo le informazioni senza soluzione di continuità secondo le necessità)
- Il reporting passa all'analisi predittiva e prescrittiva per ottenere approfondimenti in tempo reale, raccomandazioni basate sull'intelligenza artificiale e processi decisionali in tempo reale.
- A prova di futuro per nuove fonti di dati, applicazioni a valle e casi d'uso.
3 fasi del viaggio della moderna impresa di dati
Poiché le aziende si stanno trasformando digitalmente e si stanno orientando verso il sito cloud, in genere intraprendono un percorso a tappe per realizzare una moderna architettura dei dati.
Questo può essere suddiviso in tre fasi principali:
Fase 1 - On-Premises
La maggior parte delle aziende dispone di sistemi on-premises, con gli strumenti necessari per archiviare ed elaborare grandi serie di dati ed eseguire trasformazioni complesse. Questo ambiente è impegnativo per i seguenti motivi:
- Richiede un grande investimento di capitale per iniziare e un grande investimento in spese operative (OpEx) per il personale necessario.
- È necessario un set di competenze specializzate e dedicate per gestire gli strumenti per i big data.
- Il risultato è un tempo di risposta lento, che comprende i tempi di acquisto, spedizione e installazione dell'ambiente dati.
Le aziende hanno operato in questo modo per molti decenni e in genere hanno investito molto nei modelli on-premise. Non solo c'è un investimento finanziario, ma il rischio di perdere i dati o di scollegare le integrazioni personalizzate può essere troppo grande per una migrazione completa a cloud . Molte aziende hanno dati che ritengono debbano rimanere all'interno dei propri server e quindi adottano un approccio ibrido cloud .
Fase 2 - Cloud: Virtual Private Cloud (VPC)
Con l'adozione di cloud, la seconda fase del percorso è quella del "lift and shift", in cui le aziende spostano semplicemente i cluster on-premises verso un provider cloud che gira in una rete privata virtuale cloud e può sfruttare i vantaggi dell'IaaS, come i costi più bassi. Forrester riporta che le organizzazioni che si avvalgono di cloud risparmiano il 20-60% rispetto ai costi dell'infrastruttura on-premise, poiché la maggior parte di esse effettua un overprovisioning di server e storage e deve poi gestire questi ambienti.
Tuttavia, questa fase presenta ancora alcune sfide importanti:
- Non affronta in alcun modo le sfide della gestione e della manutenzione dell'ambiente.
- Ha un'elevata OpEx
- Non affronta il gap di competenze e le competenze necessarie per gestire i servizi in esecuzione nella VPC.
- Ha un tempo di risposta lento
- Non supporta i servizi di archiviazione nativi di cloud
La gestione dei cloud on-premise e privati è complessa, e questo porta spesso le aziende a cercare un modo migliore per gestire l'ambiente cloud . Questo porta a passare ai servizi gestiti di cloud .
Fase 3 - Cloud: Big Data come servizio
In questa fase, le aziende hanno riconosciuto le sfide e le stanno affrontando passando ai servizi gestiti da cloud, come IBM, Microsoft e Google. Questi servizi gestiti liberano l'azienda dalla complessità della gestione e della manutenzione degli ambienti di elaborazione su scala e riducono la spesa OpEx.
Altri vantaggi sono:
- Funzionalità on-demand che utilizzano le risorse di storage e di calcolo solo quando necessario, riducendo così gli OpEx.
- Un modo molto più semplice per scalare verso l'alto e verso il basso fino a volumi di Terabyte/Petabyte
- Tempi di risposta più rapidi per le esigenze aziendali
Inoltre, le piattaforme per big data gestite da cloud sono progettate con servizi di cloud storage. Esse dispongono di un'integrazione nativa con lo storage cloud , in modo da poter utilizzare lo storage cloud come componente di storage distribuito adatto allo storage dei data lake.
Parliamo un po' dell'archiviazione dei dati.
La moderna architettura dei dati necessita di data lake
Un data warehouse archivia dati strutturati (cioè provenienti da sistemi transazionali). È ottimizzato per analizzare i dati relazionali, non i dati semi-non strutturati. Pertanto, prima di scrivere dall'origine dei dati al data warehouse, è necessario definire la struttura e pulire e trasformare i dati. Questo richiede tempo e rende più difficile ottenere dati utilizzabili alla velocità necessaria per un'azienda. Inoltre, con una tale quantità di nuovi dati disponibili, il costo del data warehousing è davvero proibitivo.
I data lake supportano la moderna architettura dei dati.
A differenza di un data warehouse, un data lake è una raccolta di tutti i tipi di dati: strutturati, semi-strutturati e non strutturati. I dati vengono archiviati nel loro formato grezzo, senza bisogno di alcuna struttura o schema. In effetti, non è necessario definire la struttura dei dati quando vengono acquisiti, ma solo quando vengono letti. Poiché i data lake sono altamente scalabili, supportano grandi volumi di dati a un prezzo più conveniente. Inoltre, con un data lake è possibile archiviare dati provenienti da fonti relazionali (come i database relazionali) e da fonti non relazionali (dispositivi/macchine IoT, social media, ecc.) senza ETL (extract, transform, load), il che rende i dati disponibili per l'analisi molto più velocemente.
4 caratteristiche di una moderna architettura dei dati aziendali
Le caratteristiche principali di una moderna architettura dei dati aziendali sono quattro: 1) il ciclo dei dati, 2) l'archiviazione dei dati, 3) una piattaforma di integrazione e 4) la distribuzione dei dati.
Ciclo di dati
Le aziende si imbattono costantemente in nuove fonti di dati e hanno bisogno di acquisire i dati prima di conoscerne l'eventuale caso d'uso. I dati acquisiti vengono estratti per alimentare casi d'uso noti e conservati per casi d'uso futuri non definiti. I dati in entrata devono poi essere conformati agli standard aziendali per garantire la governance, la qualità, la coerenza, la conformità alle normative e l'accuratezza per gli utenti a valle, indipendentemente dalle esigenze aziendali, dalle competenze o dalla comprensione dell'architettura dei dati. Una volta che i dati sono stati acquisiti e conformati agli standard aziendali, i servizi di affinamento preparano i dati per l'eventuale applicazione a valle e/o per i casi d'uso.
Memorizzazione dei dati
I dati vengono archiviati nel data lake. Pensate al data lake come a una moderna fabbrica di dati, all'interno della quale si trovano i "contenitori" per le varie fasi di elaborazione dei dati. Il primo contenitore è quello di atterraggio, dove vengono ricevuti i dati grezzi in entrata, indipendentemente dalla forma, dal trasporto o dalla fonte. È qui che vanno a finire i dati non puliti. Qui vengono prese le decisioni su quali dati grezzi conservare. I dati conservati vengono spostati nel contenitore conforme.
Il contenitore conforme è il luogo in cui i dati grezzi vengono puliti e la qualità dei dati viene garantita. Il contenitore conforme assicura che l'azienda lavori con un set di dati coerente e conforme agli standard.
Poi c'è il contenitore di raffinazione che prepara i dati per l'eventuale destinazione, e ci possono essere sottoinsiemi di raffinazioni a seconda dei casi d'uso. Una volta raffinati, i dati vengono preparati per essere consegnati a destinazione. Dopo la consegna, i dati possono essere spostati in un'area di lavoro a disposizione dei data scientist, archiviati per la conservazione a lungo termine o eliminati.
Piattaforma di integrazione dei dati
La piattaforma di integrazione prende i dati da fonti diverse e li combina per fornire una visione unificata. In una moderna architettura di dati, la piattaforma di integrazione deve essere sufficientemente flessibile da supportare tutte le fonti e i target di dati richiesti, nonché i servizi di dati in ogni fase del ciclo dei dati. Deve essere in grado di supportare dati con e senza schema e di gestire i metadati. Inoltre, deve essere in grado di gestire l'integrazione e l'elaborazione richieste per:
- Acquisizione di dati ad alta velocità, varietà e volume
- Integrazione delle applicazioni a bassa latenza
- Elaborazione della conformità dei dati ad alto volume
- Integrazione dei dati dalla consegna all'obiettivo
- Consumo di API (essenziale per gli ecosistemi B2B)
Inoltre, gli scenari sopra descritti devono essere resi accessibili a un'ampia comunità di utenti, dai professionisti IT altamente qualificati agli utenti aziendali che devono accelerare un progetto di linea di business in risposta a un ambiente aziendale in rapida evoluzione. Nell'azienda moderna, gli analisti e i data scientist sono chiamati a rispondere a domande strategiche e a sbloccare l'innovazione a un ritmo senza precedenti e non possono permettersi il lusso di dipendere da un'organizzazione IT per rendere disponibili le informazioni critiche necessarie. Il self-service non è più un lusso o una comodità, ma è ormai un requisito mission-critical. La capacità di creare rapidamente pipeline di dati è essenziale per mantenere il business alla velocità necessaria nell'era digitale.
Consegna dei dati
Infine, i dati devono essere consegnati ai destinatari appropriati. L'accessibilità sicura dei dati è parte integrante della moderna architettura dei dati. Governance, sicurezza, controllo degli accessi basato sui ruoli (RBAC), SLA, throttling e analisi dell'utilizzo sono tutti elementi fondamentali per fornire i dati agli utenti previsti, siano essi dipendenti interni o partner esterni.
Le aziende che adottano un approccio alla fornitura di dati come servizio assicurano i massimi livelli di disponibilità, accessibilità ed esperienza del cliente senza dover affrontare costanti esercitazioni antincendio dell'IT o compromettere la sicurezza o la proprietà intellettuale interna. I dati vengono consegnati alle loro destinazioni finali, che comprendono data mart, applicazioni, file, bacini di dati, banchi di lavoro per la scienza dei dati, soluzioni abilitate all'intelligenza artificiale ed ecosistemi API.
Costruire una solida e moderna architettura di dati
Una solida e moderna architettura dei dati aziendali garantirà alle imprese l'accessibilità, la velocità, la flessibilità e l'affidabilità necessarie per ottimizzare ogni fonte di dati e utilizzarli per prendere decisioni aziendali migliori. SnapLogic fornisce l'integrazione dei dati attraverso la sua piattaforma di integrazione intelligente come servizio, aiutando le aziende a costruire architetture di dati moderne per proteggere le loro esigenze di dati in futuro.