Conseils pour améliorer votre stratégie de lac de données

3 minutes de lecture

Alors que les organisations s‘efforcent de gérer efficacement des réservoirs de données toujours plus volumineux et variés, les lacs de données sont de plus en plus considérés comme une approche intelligente. Toutefois, si ce modèle peut offrir la flexibilité et l‘évolutivité qui font défaut aux architectures traditionnelles de gestion des données d‘entreprise, les lacs de données posent également un nouvel ensemble de problèmes d‘intégration et de gouvernance qui peuvent entraver la réussite.

La puissance et le potentiel des lacs de données

Nés de l‘essor du site cloud et des technologies de big data comme Hadoop, les lacs de données permettent aux organisations de stocker de manière rentable des quantités quasi illimitées de données structurées et non structurées provenant d‘une myriade de sources, sans se soucier de la manière dont ces données pourraient être exploitées à l‘avenir. De par sa nature même et grâce à ses capacités de veille stratégique en libre-service, un lac de données encourage également l‘expérimentation et l‘exploration des données par un plus grand nombre d‘utilisateurs qui ne sont pas des analystes commerciaux. Selon une enquête menée par TDWI Research, 85 % des personnes interrogées considèrent le lac de données comme une opportunité de relever les défis auxquels elles sont confrontées lorsqu‘elles tentent de gérer le déluge de données avec les bases de données relationnelles traditionnelles. En outre, l‘enquête de TDWI a révélé que le lac de données était recherché pour une variété d‘avantages et de cas d‘utilisation, les plus importants étant l‘analyse avancée (49 %) et la découverte de données (49 %).

Malgré la puissance et le potentiel de cette technologie, les entreprises risquent de se heurter à de nouveaux problèmes de gestion et d‘intégration des données si elles abordent les lacs de données sans une stratégie cohérente et bien planifiée. Les solutions d‘intégration de données traditionnelles, notamment les bus de service d‘entreprise (ESB), les outils d‘extraction, de transformation et de chargement (ETL) et le code personnalisé, ne sont pas en mesure de gérer le volume et la variation des données structurées et non structurées, ni de travailler efficacement avec un stockage de données sans schéma ou de gérer des flux de données en temps réel. En gardant ces réserves à l‘esprit, l‘adhésion aux meilleures pratiques suivantes peut garantir un déploiement plus fluide du lac de données et un plan de migration et d‘intégration plus efficace :

Adopter la gouvernance des données. Oui, le lac de données est flexible et non structuré, mais si l‘on ne prête pas attention aux pratiques formelles de gouvernance, il peut rapidement se transformer en un marécage de données difficile à naviguer et impossible à gérer. Il est essentiel d‘établir des contrôles par le biais d‘une gouvernance des données basée sur des politiques, avec l‘aide d‘un gestionnaire de données qualifié, ainsi que d‘appliquer une exigence en matière de métadonnées, qui permettra aux utilisateurs de trouver les données et d‘optimiser les requêtes. La conception d‘une création automatisée des métadonnées est un moyen de garantir la cohérence et la précision.

S‘appuyer sur la gouvernance avec des zones. Les données d‘un lac de données peuvent être séparées logiquement ou physiquement par fonction, ce qui peut contribuer à l‘organisation de l‘environnement. Bien qu‘il existe de nombreuses approches de cette stratégie, certains experts suggèrent de maintenir une zone pour les données à courte durée de vie avant qu‘elles ne soient ingérées, une autre pour les données brutes telles que les données de capteurs ou les blogs, puis des zones de confiance pour les données qui ont été soumises à des routines de qualité et de validation, et qui peuvent donc devenir la source d‘autres systèmes en aval.

Évaluer des méthodes d‘intégration plus modernes. Les solutions d‘intégration de données existantes, telles que les ESB et les outils ETL, ne peuvent pas répondre aux besoins spécifiques d‘un lac de données, notamment la nécessité d‘importer et d‘exporter des données en temps réel et de travailler avec des données non structurées, qui évoluent souvent à un rythme effréné. En comparaison, les nouvelles approches d‘intégration de données sont spécialement conçues pour travailler avec de grandes quantités de données sans structure hiérarchique native et nombre d‘entre elles proposent des connecteurs prédéfinis qui permettent aux "développeurs citoyens" de prendre en charge une partie de ce travail sans dépendre de l‘informatique.

Recrutez du personnel en conséquence. Il est déjà difficile de trouver des experts qualifiés en entrepôts de données ou des analystes en informatique décisionnelle, mais le big data et les exigences analytiques qui l‘accompagnent font monter le niveau de compétences d‘un cran. Compte tenu de la relative nouveauté de technologies comme Hadoop, la plupart des organisations ne disposent pas de spécialistes formés dans cette discipline ou dans d‘autres compétences pertinentes telles que les technologies de flux de données comme Flume et Spark. Pour s‘assurer que la bonne combinaison de talents est en place, les organisations informatiques devraient identifier les personnes très performantes qui peuvent être formées à certains de ces ensembles de compétences émergents, ainsi que faire appel à des experts contractuels externes lorsque cela s‘avère nécessaire.n

Les lacs de données peuvent aider les organisations à tenir les promesses de l‘analyse des big data pour découvrir des informations et favoriser l‘innovation basée sur les données. Toutefois, le nouveau modèle exige le respect de la gouvernance et de nouvelles pratiques d‘intégration afin de garantir que le voyage se fasse en douceur et non dans les marécages.

Ancien vice-président du marketing produit chez SnapLogic
Catégorie : Données
Sujets : Intégration des données Lac de données

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.