Mentre le organizzazioni sono alle prese con la gestione efficace di serbatoi sempre più voluminosi e variegati di big data, i data lake sono sempre più considerati un approccio intelligente. Tuttavia, se da un lato questo modello può offrire la flessibilità e la scalabilità che mancano alle tradizionali architetture di gestione dei dati aziendali, dall'altro i data lake introducono una nuova serie di sfide di integrazione e governance che possono ostacolare il successo.
La potenza e il potenziale dei data lake
Nati dall'ascesa di cloud e di tecnologie per i big data come Hadoop, i data lake offrono alle organizzazioni la possibilità di archiviare in modo economico quantità pressoché illimitate di dati strutturati e non strutturati provenienti da una miriade di fonti, senza tenere conto di come tali dati potrebbero essere sfruttati in futuro. Per sua stessa natura e grazie alle funzionalità di business intelligence self-service, un data lake incoraggia anche la sperimentazione e l'esplorazione dei dati da parte di un più ampio gruppo di utenti non analisti aziendali. Secondo un sondaggio condotto da TDWI Research, l'85% degli intervistati ritiene che il data lake rappresenti un'opportunità per affrontare le sfide che si presentano nel tentativo di gestire il diluvio di dati con i database relazionali tradizionali. Inoltre, l'indagine di TDWI ha rilevato che il data lake viene perseguito per una serie di vantaggi e casi d'uso, i più importanti dei quali sono l'analisi avanzata (49%) e la scoperta dei dati (49%).
Nonostante la potenza e il potenziale di questa tecnologia, le aziende rischiano di scontrarsi con problemi di gestione e integrazione dei dati del tutto nuovi se si avvicinano ai data lake senza una strategia coesa e ben pianificata. Le soluzioni tradizionali di integrazione dei dati, tra cui ESB (Enterprise Service Bus), strumenti di estrazione, trasformazione e caricamento (ETL) e codice personalizzato, non sono in grado di gestire il volume e la variazione dei dati strutturati e non strutturati, né di lavorare efficacemente con l'archiviazione dei dati senza schema o di gestire flussi di dati in tempo reale. Tenendo conto di questi limiti, il rispetto delle seguenti best practice può garantire un'implementazione più fluida del data lake e un piano di migrazione e integrazione più efficace:
Abbracciare la governance dei dati. Certo, il data lake è flessibile e non strutturato, ma se non si presta attenzione alle pratiche formali di governance, può trasformarsi rapidamente in una palude di dati difficile da navigare e da gestire. È fondamentale stabilire controlli attraverso una governance dei dati basata su policy, con l'aiuto di un data steward qualificato, e imporre un requisito di metadati, per garantire che gli utenti possano trovare i dati e ottimizzare le query. Progettare la creazione automatica di metadati è un modo per garantire coerenza e accuratezza.
Costruire la governance con le zone. I dati in un data lake possono essere separati logicamente o fisicamente per funzione, il che può aiutare a mantenere l'ambiente organizzato. Sebbene esistano molti approcci a questa strategia, alcuni esperti suggeriscono di mantenere una zona per i dati di breve durata prima che vengano ingeriti, un'altra per i dati grezzi, come i dati dei sensori o i weblog, e infine zone di fiducia per i dati che sono stati sottoposti a routine di qualità e convalida, e che quindi possono diventare la fonte per altri sistemi a valle.
Valutare metodi di integrazione più moderni. Le soluzioni di integrazione dei dati esistenti, come gli ESB e gli strumenti ETL, non sono in grado di soddisfare le esigenze specifiche di un data lake, tra cui la necessità di importare ed esportare i dati in tempo reale e di lavorare con dati non strutturati, che spesso cambiano a un ritmo incalzante. In confronto, i nuovi approcci di integrazione dei dati sono costruiti appositamente per lavorare con grandi quantità di dati senza una struttura gerarchica nativa e molti offrono connettori precostituiti che consentono ai "cittadini sviluppatori" di gestire parte di questo lavoro senza dipendere dall'IT.
Il personale deve essere adeguato. È già abbastanza difficile trovare esperti qualificati di data warehouse o analisti di business intelligence, ma i big data e i requisiti analitici che li accompagnano fanno salire il livello delle competenze. Data la relativa novità di tecnologie come Hadoop, la maggior parte delle organizzazioni non dispone di specialisti formati in questa disciplina o in altre competenze rilevanti come le tecnologie di flusso dei dati come Flume e Spark. Per garantire il giusto mix di talenti, le organizzazioni IT dovrebbero identificare le persone ad alto rendimento che possono essere formate in alcuni di questi set di competenze emergenti, nonché ricorrere a esperti esterni a contratto quando e dove opportuno. n
I laghi di dati possono aiutare le organizzazioni a mantenere le promesse dell'analisi dei big data per scoprire intuizioni e promuovere l'innovazione basata sui dati. Tuttavia, il nuovo modello richiede l'adesione alla governance e a nuove pratiche di integrazione per garantire che il viaggio sia agevole e non paludoso.