Lac de données Hadoop - Explication et vue d‘ensemble

Qu‘est-ce qu‘un lac de données Hadoop ?

Hadoop est un élément important de l‘architecture utilisée pour construire les lacs de données. Un lac de données Hadoop est un lac de données qui a été construit sur un site plateforme composé de clusters Hadoop. Hadoop est particulièrement populaire dans l‘architecture des lacs de données car il s‘agit d‘un logiciel libre (dans le cadre du projet Apache Software Foundation). Cela signifie qu‘il peut réduire de manière significative les coûts de construction de magasins de données à grande échelle.

Les données et les informations stockées sur les clusters Hadoop sont non relationnelles et peuvent inclure des objets JSON, des fichiers journaux, des images et des messages web. Ce type d‘architecture n‘est pas conçu pour le traitement des transactions, mais plutôt pour soutenir les applications analytiques. 

Dans les lacs de données, les données sont généralement stockées dans un système de fichiers distribués Hadoop (HDFS). Ce système permet le traitement simultané des données. En effet, au fur et à mesure qu‘elles sont ingérées, les données sont divisées en segments et distribuées entre les différents nœuds d‘un cluster. Les lacs de données Hadoop peuvent également contenir une variété de données structurées, non structurées et semi-structurées. Cela peut les rendre plus adaptés à certaines opérations que des entrepôts de données plus ciblés.

Outre Hadoop, il existe d‘autres exemples de lacs de données. Il peut s‘agir d‘un Azure Data Lake Store ou du magasin d‘objets Amazon S3 cloud . En ce qui concerne les lacs de données, il n‘existe pas de définition de lac de données qui découle uniquement de la technologie utilisée. Il est donc possible qu‘à l‘avenir, Hadoop ne soit plus utilisé dans l‘architecture des lacs de données.

Une autre distinction importante en matière d‘architecture big data est celle qui oppose l‘entrepôt de données au lac de données. Il s‘agit de la quantité de données conservées et de leur degré de structuration. Un lac de données est un grand dépôt, pouvant atteindre des pétaoctets, qui contient des données brutes sous forme de blocs ou de fichiers. Un entrepôt de données, en revanche, est beaucoup plus ciblé dans sa composition. Les données qu‘il contient sont généralement traitées et affinées, ce qui les rend plus faciles et plus rapides à utiliser lors de l‘analyse des données pour obtenir des informations commerciales.