Mentre i fornitori pubblici di cloud si contendono i vostri dollari per l'archiviazione, l'elaborazione e l'analisi dei big data, ogni fornitore offre diversi metodi di ingestione dei dati per ottimizzare il processo di caricamento dei dati in blocco per catturare i vostri dati (e i vostri dollari). Google non è da meno e offre un'opzione di caricamento massivo per carichi di lavoro batch e streaming per Google BigQuery.
Mentre SnapLogic supporta Google BigQuery da tempo, sia lo streaming e batch sono state introdotte nella release di novembre autunno 2017 (R4.11) per ottimizzare ulteriormente le pipeline SnapLogic che caricano i dati in Google BigQuery. Questo nuovo set di funzionalità aiuta i clienti SnapLogic a ottimizzare il caricamento del loro Data Warehouse Google BigQuery, sfruttando gli oltre 400 Snap per connettersi a quasi tutte le fonti e ottimizzare il carico in Google BigQuery.
Invece di inserire (scrivere) un record di dati alla volta in Google BigQuery, il nuovo SnapLogic Google BigQuery Bulk Load carica i dati in blocco, come suggerisce il nome, nel dataset di Google BigQuery. Sia che si tratti di caricare file di dati come processo batch, che sfrutta automaticamente l'alta velocità di Google Cloud Storage per lo stoccaggio temporaneo dei file, sia che si tratti di dati in streaming, il processo di inserimento è ottimizzato per le operazioni in blocco, con conseguente aumento delle prestazioni e riduzione dei tempi di caricamento.
Per dare un'idea dell'aumento delle prestazioni, i test interni hanno dimostrato che, confrontando il caricamento di 100.000 documenti utilizzando Google BigQuery Write Snap rispetto a Google BigQuery Bulk Load (Streaming) Snap, i risultati hanno mostrato una riduzione del tempo di caricamento di almeno il 50% (i risultati variano in base all'impostazione del carico batch, al numero di colonne e alla lunghezza dei dati). A 1.000.000 di record, gli stessi test hanno mostrato una riduzione minima dell'80% del tempo di caricamento (anche in questo caso, i risultati variano).
Inoltre, se si considerano i lavori di elaborazione in batch, che in precedenza non erano supportati, una volta che i file di dati sono stati caricati su Google Cloud Storage ad alta velocità (operazione gestita automaticamente dallo Snap di Google BigQuery Bulk Load (Cloud Storage)), il caricamento su Google BigQuery è estremamente veloce. Un test interno mostra che un file JSON con 1,5 milioni di record viene caricato in Google BigQuery in poco più di 90 secondi (anche in questo caso, il tempo varia notevolmente in base ai dati).
Ora che abbiamo parlato della tecnologia, consideriamo le applicazioni aziendali a supporto dell'IOT, del Customer 360, del marketing digitale, delle operazioni o di altri casi d'uso di analisi di grandi volumi di dati e il time-to-value più rapido nel realizzare questi casi d'uso con SnapLogic.
Guardate gli snap di Google BigQuery in azione qui sotto.
Date il nostro nuovo Google BigQuery Carica in blocco gli snap e fateci sapere cosa ne pensate.