Qu‘est-ce que l‘ingestion de big data ?
L‘ingestion de big data permet de collecter des données et de les introduire dans un système de traitement de données où elles peuvent être stockées, analysées et consultées. Les systèmes de traitement des données peuvent inclure des lacs de données, des bases de données et des moteurs de recherche. En général, ces données ne sont pas structurées, proviennent de sources multiples et existent sous divers formats.
En fonction de la source et de la destination des données, celles-ci peuvent être importées en temps réel, par lots ou les deux (architecture lambda). Les données qui sont diffusées en temps réel sont importées pendant qu‘elles sont émises par la source. Les données ingérées par lots sont importées par groupes distincts à intervalles réguliers.
Dans de nombreuses situations, la source et la destination peuvent ne pas avoir le même format, le même protocole ou la même synchronisation des données. Pour que les données puissent être utilisées par le système de destination, elles doivent être transformées ou converties d‘une manière ou d‘une autre.
Une ingestion de données efficace commence par la couche d‘ingestion de données. Cette couche traite les données entrantes, hiérarchise les sources, valide les fichiers individuels et achemine les données vers la bonne destination. Elle se termine par la couche de visualisation des données qui présente les données à l‘utilisateur.
SnapLogic aide les organisations à améliorer la gestion des données dans leurs lacs de données. Il s‘agit notamment de déplacer et de traiter d‘importants volumes de données provenant de diverses sources. SnapLogic eXtreme gère les clusters de big data et rend le traitement des big data basé sur cloud viable pour les entreprises en offrant évolutivité, flexibilité et réduction de l‘OpEx.
En savoir plus sur les modèles de pipelines d‘ingestion de big data et sur l ‘architecture des pipelines de données.