Ingestione dei Big Data - Definizione e panoramica

Che cos'è l'ingestione dei big data?

L'ingestione dei big data raccoglie i dati e li porta in un sistema di elaborazione dati dove possono essere archiviati, analizzati e consultati. I sistemi di elaborazione dei dati possono includere data lake, database e motori di ricerca. Di solito, questi dati non sono strutturati, provengono da più fonti e sono disponibili in diversi formati. 

A seconda dell'origine e della destinazione dei dati, questi possono essere ingeriti in tempo reale, in batch o in entrambi i modi (architettura lambda). I dati in streaming in tempo reale vengono importati mentre vengono emessi dalla sorgente. I dati ingeriti in batch vengono importati in gruppi distinti a intervalli di tempo regolari.

In molte situazioni, l'origine e la destinazione potrebbero non avere lo stesso formato, protocollo o tempistica dei dati. Per rendere i dati utilizzabili dal sistema di destinazione, essi richiederanno un qualche tipo di trasformazione o conversione. 

Un'efficace ingestione dei dati inizia con il livello di ingestione dei dati. Questo livello elabora i dati in arrivo, stabilisce la priorità delle fonti, convalida i singoli file e indirizza i dati alla destinazione corretta. Si conclude con il livello di visualizzazione dei dati, che li presenta all'utente.

SnapLogic aiuta le organizzazioni a migliorare la gestione dei dati nei loro data lake. Ciò include lo spostamento e l'elaborazione di grandi volumi di dati provenienti da varie fonti. SnapLogic eXtreme gestisce cluster di big data e rende fattibile per le aziende l'elaborazione dei big data basata su cloud, offrendo scalabilità, flessibilità e riduzione degli OpEx. 

Per saperne di più sui modelli di pipeline di ingestione dei big data e sull'architettura delle pipeline di dati.


Altri contenuti che potrebbero piacervi