Qu‘est-ce que le maillage de données ?
Data mesh est un cadre de gestion des données d‘entreprise qui définit comment gérer les données spécifiques à un domaine d‘activité d‘une manière qui permette aux domaines d‘activité de posséder et d‘exploiter leurs données. Il permet aux producteurs et aux consommateurs de données spécifiques à un domaine de collecter, de stocker, d‘analyser et de gérer des pipelines de données sans avoir recours à une équipe intermédiaire de gestion des données.
Le maillage de données trouve son origine dans l‘informatique distribuée, où les composants logiciels sont partagés entre plusieurs ordinateurs fonctionnant ensemble comme un système. Avec le maillage des données, la propriété des données est répartie entre différents domaines d‘activité, et chaque domaine est responsable de la création de ses produits de données. Le maillage des données permet également une contextualisation plus facile des données afin de générer des informations plus approfondies, tout en facilitant la collaboration entre les propriétaires de domaines pour créer des solutions adaptées aux besoins spécifiques de l‘entreprise.
Comment le maillage des données est-il défini ?
Data mesh est une approche de conception d‘architecture de données plateforme pour la mise en œuvre d‘une architecture décentralisée et distribuée d‘analyse et de partage de données.
Comment fonctionne le maillage des données ?
L‘architecture du maillage de données comporte des informations stockées dans plusieurs sources, et un service de formation de données met les produits de données à disposition sous forme de tableaux autorisés. Le propriétaire des données peut également créer et exposer des API que d‘autres utilisateurs peuvent utiliser. Data mesh dispose également d‘un catalogue de données qui stocke les métadonnées, telles que les noms de tables, les colonnes et les étiquettes définies par l‘utilisateur.
Quels sont les principes du maillage des données ?
Les piliers fondamentaux du maillage de données comprennent quatre principes : la décentralisation par la propriété du domaine, les données en tant que produit, l‘infrastructure de données en libre-service et la gouvernance informatique fédérée. Ces quatre principes servent à décrire le maillage des données et sont importants pour produire la valeur des données et l‘agilité d‘une architecture moderne que les entreprises recherchent à mesure qu‘elles se développent.
Principe n°1 du maillage des données : propriété du domaine
Il s‘agit de la décentralisation de la propriété des données, c‘est-à-dire de la responsabilité des données, vers les domaines d‘activité qui en sont les plus proches. Essentiellement, les domaines d‘activité sont propriétaires de leurs données plutôt qu‘une fonction informatique centralisée. Toutefois, l‘informatique peut jouer un rôle en aidant les domaines d‘activité à exploiter et à extraire la puissance de leurs données. La propriété des domaines est essentielle pour que les entreprises puissent réaliser des économies d‘échelle et éviter les goulets d‘étranglement grâce à une structure de flux de données centralisée.
Principe de maillage des données n°2 : les données en tant que produit
Avec une structure décentralisée appartenant à un domaine (ou orientée vers un domaine), les données sont partagées avec d‘autres utilisateurs et consommateurs intéressés par les données. Parmi les exemples de données en tant que produit, on peut citer un ensemble de données pour l‘analyse ou des données pour un service fourni. Les propriétaires des données du domaine peuvent partager les données comme ils l‘entendent pour produire un résultat commercial souhaité. Les données en tant que produit doivent présenter les caractéristiques minimales suivantes : elles doivent pouvoir être découvertes, adressées, comprises, dignes de confiance, véridiques et sécurisées.
Principe de maillage des données n° 3 : données en libre-service plateforme
Pour que les domaines d‘activité considèrent les données comme un produit, à partager avec d‘autres, il faut leur donner les moyens de le faire. L‘objectif du libre-service est de supprimer les frictions dans le parcours des données de bout en bout, de la source à la consommation. Les domaines d‘activité ou les propriétaires de données individuels sont alors en mesure de développer et d‘améliorer les données et de définir les paramètres pour lesquels les données sont partagées. Les capacités de l‘infrastructure de la plateforme et les politiques de gouvernance automatisées rendent le libre-service possible.
Principe de maillage des données n° 4 : gouvernance informatique fédérée
Principe général qui définit le modèle opérationnel de gouvernance des données basé sur la prise de décision fédérée, la responsabilité, la sécurité, le droit, les politiques de conformité, etc. Les motivations de ce principe comprennent le désir d‘obtenir une valeur supérieure à partir de données agrégées et de contrer les conséquences indésirables potentielles d‘une infrastructure décentralisée orientée vers un domaine.
Quels sont les avantages du maillage des données ?
- Décentraliser la propriété et l‘exploitation des données afin d‘accélérer l‘agilité des domaines d‘activité pour prendre des décisions pertinentes.
- Fournir aux équipes de domaine l‘indépendance nécessaire pour choisir la pile de technologies de données qui répond le mieux à leurs besoins.
- Assurer la transparence au sein des équipes interfonctionnelles en réduisant la probabilité que les équipes chargées des données soient isolées.
- Faciliter la souveraineté et la résidence des données pour garantir l‘alignement sur les réglementations en matière de gouvernance des données
Questions fréquemment posées sur le maillage des données
1. Comment le maillage des données permet-il de relever les défis liés à la qualité, à la cohérence et à la normalisation des données dans les domaines décentralisés ?
Dans le contexte du maillage des données, garantir la qualité, la cohérence et la normalisation des données dans les domaines décentralisés implique la mise en œuvre de pratiques solides de gouvernance des données. Il s‘agit notamment de définir des normes claires en matière de métadonnées, des processus de validation des données et des efforts de collaboration entre les propriétaires de domaines afin d‘établir des mesures communes de qualité des données et d‘y adhérer. Bien que la propriété des données soit distribuée, des cadres de collaboration et des outils automatisés peuvent être utilisés pour mettre en œuvre des pratiques normalisées en matière de données, garantissant que les données restent exactes, fiables et conformes aux normes de l‘organisation.
2. Quels outils ou technologies spécifiques complètent la mise en œuvre d‘une architecture de maillage de données ?
La mise en œuvre pratique d‘une architecture de maillage de données implique souvent une combinaison de divers outils et technologies pour soutenir différents principes. Pour la propriété du domaine, les outils qui permettent un catalogage efficace des données, la gestion des métadonnées et le contrôle d‘accès sont cruciaux. Les plateformes de données en libre-service peuvent s‘appuyer sur des outils d‘intégration de données, des services cloud et des solutions d‘automatisation pour renforcer les domaines d‘activité. La gouvernance informatique fédérée peut impliquer l‘utilisation d‘outils de gestion des politiques, de blockchain pour la responsabilité et de cadres pour le respect des lois et de la conformité. L‘outillage spécifique peut varier en fonction des exigences organisationnelles, des piles technologiques et de la nature des produits de données dans chaque domaine.
3. Existe-t-il des difficultés notables ou des inconvénients potentiels liés à l‘adoption d‘une approche de maillage des données ?
La transition vers un modèle décentralisé peut poser des problèmes. Gérer les changements culturels, assurer l‘adoption cohérente des normes de données dans tous les domaines et répondre aux préoccupations potentielles en matière de sécurité des données sont des défis cruciaux. En outre, les organisations peuvent être confrontées à des complexités dans l‘alignement des processus de prise de décision fédérés, la navigation dans les exigences légales et de conformité, et l‘établissement de canaux de communication efficaces entre les équipes de domaines décentralisés. Il est essentiel que les organisations qui envisagent de mailler leurs données procèdent à des évaluations approfondies, investissent dans la gestion du changement et anticipent et relèvent les défis tout au long du processus de mise en œuvre.