Hive e Hive Data Lake

Che cos'è Hive? 

Hive è un framework di data warehouse che sovrappone un'infrastruttura di dati a Hadoop, in modo che i dati possano essere interrogati con un linguaggio simile a SQL. Il data warehouse Hive non memorizza i dati stessi. Hadoop memorizza i dati. Hive utilizza un dialetto SQL, chiamato Hive query language (HQL o HiveQL), per eseguire query, riepiloghi e analisi dei dati memorizzati. 

Che cos'è il data lake Hive?

Il vero e proprio data lake Hive - un repository di dati - si trova all'interno di Hadoop. Un data lake è un'architettura piatta che contiene grandi quantità di dati grezzi. Il data lake Hadoop memorizza almeno un cluster di dati non relazionali Hadoop. 

I dati relazionali sono archiviati in tabelle o grafici, il che facilita la lettura delle righe di dati. I dati non relazionali sono meno organizzati di quelli relazionali. Tuttavia, hanno il vantaggio di poter memorizzare praticamente qualsiasi tipo di dati. Inoltre, non essendo strutturati in modo rigido, i dati non relazionali sono più facili ed economici da costruire, espandere e mantenere. 

Come il lago di dati Hive aiuta l'ingestione

I vantaggi di Hive consentono una più facile integrazione con elementi personalizzati, come estensioni, programmi e applicazioni. Inoltre, è più adatto per l'ingestione e l'elaborazione dei dati in batch.

Sfruttando le query e il warehousing Hive con SnapLogic Enterprise Integration Platform è possibile aumentare l'efficienza e la velocità di ingestione dei dati e la produttività della forza lavoro. Poiché non è necessaria alcuna codifica e la governance è semplificata, è possibile creare pipeline di dati agili che memorizzano ed estraggono esattamente le informazioni necessarie.