Questo è il primo post di una serie di estratti del nuovo whitepaper: Il Data Lake affogherà il Data Warehouse? Il documento è scritto da Mark Madsen, fondatore e presidente di Third Nature. Third Nature è una società di consulenza specializzata in analisi e gestione delle informazioni e nell'infrastruttura tecnologica necessaria a supportarle. Mark Madsen è un noto consulente e analista di settore che interviene spesso a conferenze e seminari negli Stati Uniti e in Europa e scrive per numerose pubblicazioni di settore.
Per saperne di più su SnapLogic per l'integrazione dei big data, consultate il nostro sito web e il webinar che abbiamo organizzato con Mark il mese scorso, intitolato: Costruire il lago di dati aziendale: Considerazioni importanti prima di lanciarsi.
"Le nuove opportunità di business richiedono una nuova piattaforma per l'elaborazione dei dati. Il data warehouse è stato utilizzato per supportare diverse esigenze di query e reporting, ma le organizzazioni vogliono una piattaforma generica, multi-applicazione e multi-utente che supporti esigenze diverse da quelle di query e reporting: il data lake.
Fino ad oggi, la maggior parte delle implementazioni sui laghi è stata realizzata attraverso la codifica manuale e l'integrazione personalizzata. La maggior parte di questo sforzo di sviluppo rappresenta la prima fase del lavoro: una volta terminato, può iniziare il lavoro utile di costruzione delle applicazioni aziendali.
La codifica manuale delle applicazioni di elaborazione dei dati è comune perché l'elaborazione dei dati è pensata in termini di lavoro specifico per l'applicazione. Purtroppo, questo sforzo manuale è un investimento a lungo termine, perché i prodotti sostituiranno le attività ripetibili. I nuovi prodotti miglioreranno nel tempo, a differenza del codice personalizzato costruito in azienda che, invecchiando, diventa un onere di manutenzione.
Ciò pone i responsabili della tecnologia in una posizione difficile. I vecchi ambienti di data warehouse e gli strumenti di integrazione sono validi, ma non sono in grado di soddisfare molte delle nuove esigenze. I nuovi ambienti si concentrano sull'elaborazione dei dati, ma richiedono molto lavoro manuale. Bisogna acquistare, costruire o integrare i componenti? Cosa si dovrebbe acquistare o costruire?
La risposta consiste nel concentrarsi non su tecnologie specifiche come Hadoop, ma sull'architettura. In particolare, ci si dovrebbe concentrare su come fornire la nuova capacità principale di un data lake, l'elaborazione dei dati per scopi generici".
Cosa c'è di diverso in un Data Lake?
"La capacità principale di un data lake, e la fonte di gran parte del suo valore, è la capacità di elaborare dati arbitrari. È questo che lo rende fondamentalmente diverso da un data warehouse. Le esigenze funzionali del lago includono la capacità di supportare quanto segue:
- Archiviazione di insiemi di dati di qualsiasi dimensione
- Elaborare e standardizzare i dati, indipendentemente dalla loro struttura o forma.
- Integrare insiemi di dati eterogenei
- Trasformare gli insiemi di dati da una forma all'altra
- Gestire i dati memorizzati e generati dalla piattaforma.
- Fornire una piattaforma per l'esplorazione dei dati
- Fornire una piattaforma che consenta un'elaborazione analitica o algoritmica complessa.
- Supportare l'intero ciclo di vita dei dati, dalla raccolta all'utilizzo fino all'archiviazione.
- Affinare e fornire dati come parte dei processi operativi, da batch a quasi in tempo reale".
Nel prossimo post di questa serie, Mark descriverà i nuovi requisiti e l'architettura del data lake. Scaricate l'intero whitepaper e date un'occhiata alla recente presentazione di Mark al webinar con SnapLogic .