SnapLogic et Google BigQuery - Chargement en masse pour des analyses Google à grande vitesse

2 min lire

Alors que les fournisseurs publics cloud rivalisent pour obtenir vos dollars de stockage, de traitement et d‘analyse des big data, chaque fournisseur propose différentes méthodes d‘ingestion des données afin d‘optimiser le processus de chargement des données en masse pour capturer vos données (et vos dollars). Google ne déroge pas à la règle et propose une option de chargement en masse pour les charges de travail en mode batch et en mode streaming pour Google BigQuery.

Bien que SnapLogic prenne en charge Google BigQuery depuis un certain temps, les deux méthodes de streaming et batch bulk-loading ont été introduites dans la version de novembre de l‘automne 2017 (R4.11) pour optimiser davantage les pipelines SnapLogic chargeant des données dans Google BigQuery. Ce nouvel ensemble de fonctionnalités aide les clients SnapLogic à optimiser le chargement de leur entrepôt de données Google BigQuery, en tirant parti des plus de 400 Snaps pour se connecter à presque n‘importe quelle source et optimiser le chargement dans Google BigQuery.

Au lieu d‘insérer (écrire) un enregistrement de données à la fois dans Google BigQuery, le nouveau SnapLogic Google BigQuery Bulk Load charge les données, comme son nom l‘indique, en vrac dans votre ensemble de données Google BigQuery. Que vous chargiez des fichiers de données dans le cadre d‘un processus par lots, qui exploite automatiquement le stockage à grande vitesse de Google Cloud pour le stockage temporaire des fichiers, ou des données en continu, le processus d‘insertion est optimisé pour les opérations en masse, ce qui se traduit par des niveaux de performance bien plus élevés et des temps de chargement plus courts.

Pour vous donner une idée de l‘augmentation des performances, des tests internes ont montré qu‘en comparant le chargement de 100 000 documents à l‘aide de Google BigQuery Write Snap par rapport à Google BigQuery Bulk Load (Streaming) Snap, les résultats ont montré une réduction d‘au moins 50 % du temps de chargement (vos résultats varieront en fonction de votre paramètre de chargement par lots, du nombre de colonnes et de la longueur des données). À 1 000 000 d‘enregistrements, les mêmes tests ont montré une réduction d‘au moins 80 % du temps de chargement (là encore, les résultats peuvent varier).

En outre, si l‘on considère les travaux de traitement par lots, qui n‘étaient pas pris en charge auparavant, une fois que vos fichiers de données sont chargés sur Google Cloud Storage à grande vitesse (ce qui est automatiquement pris en charge par Google BigQuery Bulk Load (Cloud Storage) Snap), le chargement dans Google BigQuery est extrêmement rapide. Un test interne montre qu‘un fichier JSON contenant 1,5 million d‘enregistrements se charge dans Google BigQuery en un peu plus de 90 secondes (là encore, votre temps variera considérablement en fonction de vos données).

Maintenant que nous avons parlé de la technologie, pensez aux applications commerciales pour soutenir votre IOT, Customer 360, le marketing numérique, les opérations ou tout autre cas d‘utilisation d‘analyse de grands volumes de données et le temps plus rapide pour accomplir ces cas d‘utilisation avec SnapLogic.

Voir les Google BigQuery Snaps en action ci-dessous.

Donnez à notre nouveau Google BigQuery Bulk Upload Snaps et faites-nous savoir ce que vous en pensez.

Ancien directeur principal de la gestion des produits chez SnapLogic
Catégorie : Produit

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.