Selon Accenture, "90 % des données dans le monde" ont été créées au cours des dix dernières années. Le cabinet de conseil prévoit également qu‘il y aura environ 175 zettaoctets (ou 175 trillions de gigaoctets) de données créées d‘ici 2025.
Malgré la quantité gargantuesque de données collectées, la mauvaise qualité des données continue de coûter aux entreprises 12,9 millions de dollars en moyenne chaque année. Comment les entreprises peuvent-elles donc maintenir la qualité des données tout en accumulant de plus en plus d‘informations ?
La réponse dépend de la manière dont vous choisissez de gérer vos données. Au cours des dernières années, les entreprises ont été témoins d‘une tendance évolutive dans l‘architecture des données, passant de la centralisation des données, comme dans l‘entrepôt de données et le lac de données, à la décentralisation des données, comme dans le maillage des données. Pour les entreprises qui souhaitent tirer le meilleur parti de l‘informatique décisionnelle, l‘approche de la gestion des données a un impact significatif sur leur capacité à prendre des décisions fiables fondées sur les données.
Dans cet article, nous explorons le potentiel de la centralisation et de la décentralisation des données pour améliorer la découverte, l‘accessibilité, l‘interopérabilité et la sécurité des données.
Aperçu de la décentralisation des données
La décentralisation des données fait référence à une approche de la gestion des données dans laquelle le stockage, le nettoyage, l‘optimisation, la production et la consommation des données sont distribués sans qu‘il soit nécessaire de disposer d‘un référentiel central. La décentralisation des données répartit les produits de données entre différents services de l‘organisation afin de réduire la complexité et les défis liés à la gestion de grandes quantités de données, à l‘évolution des schémas, aux temps d‘arrêt, aux mises à niveau et à la rétrocompatibilité des données.
Le maillage de données est un exemple de cadre de gestion des données qui adopte l‘approche de la centralisation des données.
Qu‘est-ce qu‘une maille de données ?
Un maillage de données est un cadre de gestion des données d‘entreprise qui définit la manière de gérer les données spécifiques à un domaine d‘activité d‘une manière qui permet aux domaines d‘activité de posséder et d‘exploiter leurs données. Il permet aux producteurs et aux consommateurs de données spécifiques à un domaine de collecter, de stocker, d‘analyser et de gérer des pipelines de données sans avoir recours à une équipe intermédiaire de gestion des données.
Le maillage de données trouve son origine dans l‘informatique distribuée, où les composants logiciels sont partagés entre plusieurs ordinateurs fonctionnant ensemble en tant que système. Dans le maillage de données, la propriété des données est répartie entre différents domaines d‘activité, et chaque domaine est responsable de la création de ses produits de données. L‘idée du maillage de données a été définie pour la première fois par Zhamak Dehghani, consultant en technologie chez Thoughtworks, en 2019.
Le maillage des données permet également une contextualisation plus facile des données afin de générer des informations plus approfondies, tout en facilitant la collaboration des propriétaires de domaines pour créer des solutions adaptées aux besoins spécifiques de l‘entreprise.
L‘architecture du maillage de données comporte des informations stockées dans plusieurs sources, et un service de formation de données met les produits de données à disposition sous forme de tableaux avec autorisation. Le propriétaire des données peut également créer et exposer des API que d‘autres utilisateurs peuvent utiliser. Le maillage de données dispose également d‘un catalogue de données qui stocke les métadonnées, telles que les noms de tables, les colonnes et les étiquettes définies par l‘utilisateur.
Les principaux avantages d‘un maillage de données sont les suivants
Décentralisation de la propriété et de l‘exploitation des données pour accélérer l‘agilité de vos domaines d‘activité et prendre des décisions pertinentes.
- Fournir aux équipes de domaine l‘indépendance nécessaire pour choisir la pile de technologies de données qui répond le mieux à leurs besoins.
- Assurer la transparence au sein des équipes interfonctionnelles en réduisant la probabilité que les équipes chargées des données soient isolées.
- Faciliter la souveraineté et la résidence des données pour garantir l‘alignement sur les réglementations en matière de gouvernance des données
Aperçu de la centralisation des données
La centralisation des données est une fonction de l‘infrastructure de données monolithique traditionnelle qui gère le stockage, le nettoyage, l‘optimisation, la sortie et la consommation des données dans un emplacement central. Si la centralisation des données garantit que les données sont gérées à partir d‘une source centrale, elle est également conçue pour rendre les données accessibles à partir de nombreux points différents.
La centralisation des données minimise les silos d‘information, favorise la collaboration et facilite la visualisation et la prévision de l‘impact potentiel des tendances émergentes ou des changements proposés dans les différents départements. Une vue centralisée des données permet également d‘aligner la stratégie des données sur la stratégie de l‘entreprise en offrant une vue à 360° des tendances, des informations et des prévisions, de sorte que tous les membres de l‘organisation puissent tirer dans la même direction.
L‘entrepôt de données et le lac de données sont des exemples de systèmes de gestion des données qui adoptent l‘approche de la centralisation des données.
Qu‘est-ce qu‘un entrepôt de données ?
Un entrepôt de données est un système de gestion de données d‘entreprise de première génération qui collecte et gère des données propriétaires provenant de différentes sources au sein d‘un site centralisé plateforme afin de synthétiser des informations commerciales.
L‘architecture d‘un entrepôt de données comporte plusieurs niveaux, le niveau supérieur étant un client frontal dans lequel vous pouvez accéder à des outils d‘analyse, d‘exploration de données et de création de rapports. Le niveau intermédiaire comprend le moteur d‘analyse et le niveau inférieur le serveur de base de données.
Le schéma de l‘entrepôt de données est un schéma sur écriture. Il peut prévoir plusieurs bases de données, et chaque base de données est organisée dans un format hiérarchique de fichiers et de dossiers.
Les principaux avantages d‘un entrepôt de données sont les suivants
- Consolidation des données provenant de sources multiples
- Permettre l‘analyse des données historiques
- Garantir la cohérence du format, de la qualité et de l‘exactitude des données
- Faciliter la séparation des bases de données transactionnelles et analytiques pour améliorer les performances
Cependant, la création de produits de données à partir de l‘entrepôt de données tend à devenir compliquée, longue et potentiellement coûteuse, car les gens sous-estiment généralement les ressources nécessaires au chargement des données.
Qu‘est-ce qu‘un lac de données ?
Un lac de données désigne un dépôt centralisé de données brutes non traitées provenant de diverses sources, sans plan précis sur la façon dont elles seront utilisées et le moment où elles le seront. Il s‘agit d‘un système de gestion des données d‘entreprise de deuxième génération axé sur la gestion des données volumineuses (big data).
L‘architecture d‘un lac de données gère les informations sur le site cloud à l‘aide d‘une console de lac de données et d‘une CLI de lac de données dans la partie frontale. Dans le back-end, vous aurez l‘API RESTFUL du lac de données, la fonction lambda, les répertoires, le catalogue de données, un OpenSearchServer, et plus encore.
Le lac de données vous permet de gérer plusieurs types de données - y compris des données relationnelles et non relationnelles - dans un format granulaire brut au sein d‘une architecture plate. Comme les données sont stockées à l‘état brut, le schéma du lac de données est un schéma en lecture et il est créé au moment de l‘analyse des données, ce qui permet d‘obtenir plus rapidement les résultats des requêtes.
Les principaux avantages du lac de données sont les suivants
- Faciliter le développement rapide de modèles d‘apprentissage automatique
- Accélérer la circulation des données en important de grandes quantités de données en temps réel
- Amélioration de l‘exploration, du catalogage, de l‘indexation et de la sécurité des données
- Permettre aux équipes de R&D de tester des hypothèses, d‘affiner les hypothèses et de suivre les résultats.
Si les analystes commerciaux peuvent utiliser l‘entrepôt de données, le lac de données nécessite l‘expertise de scientifiques et de développeurs de données disposant d‘outils spécialisés pour naviguer dans des ensembles de données complexes, car une mauvaise intégrité des données et des failles de sécurité de la part de non-experts pourraient transformer le lac de données en un marécage de données mortes.
Quand une approche centralisée de la gestion des données est-elle la bonne ?
Les solutions de données centralisées telles que les lacs de données et les entrepôts de données sont utiles dans certains cas :
- Si votre entreprise n‘en est qu‘à ses débuts en matière de gestion des données, et que vous avez peu de domaines d‘activité ou un ensemble de données minimal. Cette situation est particulièrement pertinente si vous avez des équipes interfonctionnelles dont les membres ont plusieurs casquettes. Il est préférable d‘avoir une équipe de données centralisée plutôt que de devoir créer une équipe de données pour soutenir chaque fonction.
- Si le big data est crucial pour les activités de votre entreprise, vous devez stocker, préparer et analyser une grande quantité de données. La centralisation des données permet de rassembler toutes les données de l‘entreprise en un seul endroit, de sorte qu‘il est plus facile pour l‘équipe chargée des données de les nettoyer et de les préparer. La centralisation des données permet également à l‘équipe chargée des données d‘exécuter un processus de conformité unifié afin de maintenir l‘intégrité des données.
- Si votre budget de gestion des données est faible et que vous avez besoin d‘un stockage abordable pour de grandes quantités de données brutes, structurées ou non structurées. Les systèmes de gestion centralisée des données permettent de réduire les coûts de stockage et de calcul, car vous pouvez gérer les données dans un seul serveur ou utiliser une solution cloud dans laquelle le fournisseur prend en charge les frais généraux.
Quand un maillage de données constitue-t-il une meilleure approche de la gestion des données ?
Un maillage de données représente une évolution vers une gestion décentralisée des données aux niveaux opérationnel et technologique. Si vous avez besoin d‘une plus grande efficacité dans le développement de produits de données au sein de votre organisation, un maillage de données est un pas dans la bonne direction pour augmenter l‘efficacité, réduire les coûts opérationnels et synthétiser des informations commerciales approfondies.
Vous pouvez également envisager d‘utiliser un maillage de données si :
- Vos équipes ont besoin de rassembler des données provenant de sources hétérogènes disparates pour les traiter instantanément. Le maillage des données permet aux départements d‘accéder facilement et localement aux informations dont ils ont besoin.
- Vos équipes ont besoin d‘accéder à des informations ou à des rapports d‘une manière qui ne les oblige pas à mettre leurs demandes de données en file d‘attente auprès d‘une équipe informatique ou d‘une équipe de données centralisée.
Vous devez combiner et analyser différents types de données structurées et non structurées. Le fait que le data mesh gère les données dans des groupes spécifiques à un domaine permet d‘améliorer la contextualisation des produits de données créés par vos équipes.
Un entrepôt de données, un lac de données ou un maillage de données est-il adapté à votre entreprise ? Cela dépend
L‘architecture de gestion des données que vous choisissez dépend de vos besoins uniques en matière de données et de vos projets de gestion des données à l‘avenir.
Vos besoins en matière de gestion des données et les ressources dont vous disposez détermineront si vous optez pour un entrepôt de données, un lac de données ou un maillage de données. Toutefois, l‘important est de veiller à ce que votre site plateforme ne devienne pas un dépotoir de données. Il s‘agit plutôt d‘un système optimisé qui vous permet de synthétiser efficacement l‘intelligence économique.
Prochaines étapes :
Consultez ce livre blanc sur la façon de démarrer votre entrepôt de données cloud .
En savoir plus sur la façon dont SnapLogic fait entrer l‘avenir de l‘entrepôt de données dans le présent.
Consultez notre livre blanc sur la création d‘un lac de données d‘entreprise.
En savoir plus sur le rôle de SnapLogic dans le lac de données de l‘entreprise.
Découvrez comment mettre en œuvre l‘automatisation de l‘entreprise et intégrer un lac de données ou unentrepôt de données.