Marais de données - Définition et vue d'ensemble

Qu'est-ce qu'un marais de données ?

Un marais de données est un terme utilisé pour décrire un référentiel de données mal géré qui rend difficile l'analyse des données et la prise de décision basée sur les données. Contrairement à un environnement de stockage de données bien géré, tel qu'un lac de données, qui stocke de grandes quantités de données structurées et non structurées d'une manière facilement accessible et utilisable, un marais de données se caractérise par :

Mauvaise Qualité des donnéesLes données peuvent être incomplètes, incohérentes ou inexactes

Manque de métadonnées : les informations sur les données peuvent être insuffisantes, ce qui rend difficile la compréhension de leur contexte, de leur origine et de leur structure.

Désorganisation : les données sont stockées de manière désordonnée, sans structure cohérente, ce qui rend difficile la navigation et la récupération d'informations utiles.

Accessibilité limitée : les utilisateurs éprouvent des difficultés à localiser les données dont ils ont besoin, à y accéder et à les utiliser.

Gestion inefficace : l'absence de gouvernance et de pratiques de gestion conduit à une croissance incontrôlée des données et à leur encombrement.

Marais de données ou lac de données

La différence entre un marais de données et un lac de données réside dans l'organisation, la gestion et l'utilisation des données stockées.

Les marécages de données se caractérisent généralement par les éléments suivants :

  • Désorganisation et manque de contrôles de gestion, y compris les métadonnées, la gouvernance des données et l'accès. 
  • Données incomplètes, incohérentes et de faible qualité
  • Les utilisateurs éprouvent des difficultés à localiser les données, à y accéder et à les utiliser efficacement en raison du manque d'outils et de systèmes permettant une recherche et une analyse efficaces des données.
  • Les données sont stockées au hasard, sans structure cohérente (comme un modèle de données canonique) ni objectif clair.
  • Le référentiel s'accroît de manière incontrôlée, ce qui entraîne un encombrement et une difficulté à gérer les données.

Les lacs de données se caractérisent généralement par les éléments suivants :

  • Des données bien structurées et gérées, avec des métadonnées claires, des politiques de gouvernance et des contrôles d'accès en place.
  • Des données propres, bien documentées et de grande qualité
  • Les utilisateurs peuvent facilement accéder aux données et les extraire à des fins d'analyse et de prise de décision, et des outils et des systèmes sont en place pour faciliter l'extraction, la transformation et l'analyse des données.
  • Les données sont stockées dans un but précis et sont organisées de manière à permettre diverses analyses.
  • Conçu pour traiter efficacement de grands volumes de données structurées, semi-structurées et non structurées.