Comment déplacer et transformer facilement les données de divers systèmes vers un lac de données moderne et transactionnel sur AWS ?

photo de Dominic Wellington
Nidhi Gupta, Sr. Partner Solutions Architect, Amazon Web Services
5 minutes de lecture

Dans le monde concurrentiel d‘aujourd‘hui, les entreprises comprennent l‘importance de l‘innovation et de la modernisation, et la façon dont la migration vers Cloud peut les aider à atteindre ces objectifs pour réussir. De nombreuses entreprises recherchent des moyens optimaux d‘ingérer et de migrer leurs données à partir de diverses sources, y compris les systèmes existants sur site, vers AWS. 

Les projets de replatforming sont parmi les plus compliqués, car contrairement aux initiatives visant à construire quelque chose de nouveau, vous devez conserver quelque chose d‘opérationnel qui fonctionne déjà pour les utilisateurs et soutenir l‘entreprise, tout en effectuant un travail assez important en coulisses.

SnapLogic a travaillé avec un certain nombre de clients pour les aider à réussir ces migrations, en étroite collaboration avec AWS. À ce stade, la technologie informatique cloud n‘est pas remise en question : elle a fait ses preuves à maintes reprises, en production et à grande échelle. De grandes entreprises s‘appuient chaque jour sur le site cloud . Le plan de contrôle de SnapLogic - essentiel à l‘existence de notre entreprise, sans parler des milliers d‘utilisateurs qui s‘y connectent chaque jour - est hébergé sur AWS, tirant parti de sa résilience intégrée dans les différentes zones de disponibilité d‘une région, et dans différentes régions, pour nous permettre, ainsi qu‘à nos clients, de nous concentrer sur l‘exploitation de nos entreprises.

Cas d‘utilisation : Migration des données de systèmes existants sur site vers des tables Apache Iceberg dans Amazon S3

Récemment, les équipes de SnapLogic et d‘AWS ont collaboré pour soutenir une entreprise mondiale d‘agrotechnologie qui s‘est donné pour mission d‘aider des millions d‘agriculteurs dans le monde à produire des aliments sains et nutritifs, tout en prenant soin de la planète. Dans le cadre de cette mission, l‘entreprise avait un plan ambitieux pour passer de ses anciens systèmes sur site à une nouvelle approche plus moderne et moins lourde en termes de développement et de maintenance pour ses capacités centrales d‘analyse de données à l‘échelle de l‘entreprise.

Défi commercial

La difficulté résidait dans le fait que la centralisation de l‘analyse des données nécessitait l‘accès à un paysage informatique très hétérogène et complexe, composé de services cloud , d‘applications sur site et de bases de données de différents types, ainsi que d‘applications héritées et codées sur mesure. Cette situation est commune à de nombreuses entreprises bien établies, qui ont accumulé des systèmes et des magasins de données au fil des ans à des fins très diverses, mais qui se trouvent aujourd‘hui confrontées à des choix difficiles.

Le processus d‘ingestion de données de cette entreprise était devenu complexe et coûteux en raison d‘approches et de technologies d‘intégration patrimoniales diverses, développées historiquement, qui nécessitaient une maintenance de plus en plus difficile et coûteuse. Les ingénieurs de données consacraient jusqu‘à 50 % de leur temps au développement et à la maintenance des intégrations de données, au lieu de se consacrer à des tâches plus productives.

De nombreux projets de migration vers cloud comme celui-ci ont échoué au fil des ans, faute d‘avoir exploité le potentiel des nouvelles plates-formes et technologies. Les premières tentatives de l‘entreprise dans cette direction ont été décevantes, des centaines de tâches cloud étant nécessaires rien que pour maintenir l‘état du système. Pire encore, le nouveau système était peu flexible et ne permettait pas d‘effectuer des opérations granulaires sur les données, obligeant les utilisateurs à écraser les données à chaque nouvelle période.

Ce projet d‘intégration ne se limitait pas à une simple connectivité, mais devait également garantir des niveaux de débit et de performance adaptés à l‘échelle mondiale et aux ambitions commerciales du client. Certaines des plus grandes tables des principaux systèmes d‘entreprise qui devaient être exposées pour l‘analyse intégrée comptaient des dizaines de milliards de lignes. Certaines API renvoyaient des dizaines de millions d‘objets pour une seule requête, ce qui obligeait la couche d‘intégration SnapLogic à fragmenter les requêtes afin d‘assurer une livraison complète et la visibilité de l‘entreprise. De plus, certaines colonnes contenaient des données sensibles qui devaient être cryptées.

Aperçu de la solution

L‘iPaaS plateforme de SnapLogic, alimenté par l‘IA et sans code, a été en mesure d‘intégrer, de transformer et de charger facilement des données provenant de divers systèmes vers des tables Apache Iceberg dans Amazon S3, grâce à plus de 750 connecteurs natifs vers un large éventail d‘applications. SnapLogic prend en charge les méthodologies ETL et ELT, ce qui signifie que les transformations de données peuvent être effectuées soit sur SnapLogic plateforme, soit sur le système de destination où les données seront stockées en vue d‘une analyse ultérieure. 

Un élément clé de la réussite de cette intégration a été la collaboration avec un ensemble complet de technologies et de partenaires. 

Diagramme montrant Intégrer, Automatiser et Orchestrer pour déplacer et transformer les données à l‘aide de SnapLogic
Figure 1 : Intégrer, automatiser et orchestrer pour déplacer et transformer les données à l‘aide de SnapLogic

Apache Iceberg, qui permet un traitement transactionnel des données, est une technologie particulièrement importante pour répondre aux exigences de l‘entreprise. SnapLogic a utilisé Amazon Athena pour charger et effectuer des opérations sur les données des tables Iceberg sur Amazon S3. Les tables Iceberg pouvaient ensuite être consultées pour l‘analyse des données et l‘apprentissage automatique via des services AWS tels qu‘Amazon Athena, Amazon Quicksight, Amazon Redshift ou d‘autres outils de BI, de visualisation et de tableau de bord. 

Diagramme montrant la migration par SnapLogic de données provenant d‘anciens systèmes sur site vers des tables Apache Iceberg sur Amazon S3
Figure 2 : SnapLogic migre des données de systèmes existants sur site vers des tables Apache Iceberg sur Amazon S3.

Caractéristiques principales

  • L‘option Encrypt Snap permet de crypter les données sensibles.
  • La prise en charge des pipelines imbriqués via la fonction Pipeline Execute de SnapLogic a été mise à profit pour améliorer l‘efficacité et la modularité.
  • La prise en charge des paramètres par SnapLogic permet d‘aller encore plus loin dans la flexibilité. Par exemple, les pipelines parents peuvent passer itérativement différentes valeurs de paramètres aux pipelines enfants.
  • De multiples pipelines parallèles ingèrent et traitent les données par morceaux distincts afin d‘accélérer l‘ingestion de gros volumes de données provenant de plusieurs systèmes sources.
  • La transformation des données en vol s‘est faite par l‘intermédiaire de mappeurs qui transforment les données provenant des systèmes sources.
  • La flexibilité de SnapLogic plateforme est illustrée par notre utilisation du Generic JDBC Execute Snap pour se connecter à Amazon Athena.

Avantages

La solution élaborée à l‘aide de SnapLogic et des services AWS a permis de réduire considérablement les efforts consacrés à la conception, au développement, aux tests et à la maintenance des pipelines d‘intégration et d‘ingestion de données. Les analystes commerciaux disposent désormais d‘une visibilité sans précédent sur leur propre activité et sur les données qui la sous-tendent. Toutes ces données existaient déjà et avaient déjà été collectées, au prix d‘efforts considérables, par les employés, les partenaires et même les clients. Il était tout simplement trop difficile d‘y accéder en temps voulu et de manière transparente. Avec cette solution, les différentes parties prenantes chez le client ont pu profiter des fonctionnalités avancées d‘Iceberg telles que les requêtes temporelles, qui permettent aux utilisateurs d‘effectuer des analyses basées sur l‘état des données à une date spécifique. Le client dispose désormais d‘une base de données transactionnelle moderne qui constitue la source unique de vérité pour toutes ses organisations.

En tirant parti de la prise en charge native de chacune des plateformes technologiques existantes, nous avons pu réduire de 70 % le temps nécessaire au développement et à la maintenance des intégrations, ce qui a permis de libérer l‘équivalent de plus de 17 employés pour de nouveaux projets et une innovation plus rapide. 

Conclusion

Le site plateforme de SnapLogic, basé sur l‘IA, est la clé qui permet de tirer le maximum de valeur des investissements passés et futurs dans les données. L‘intégration étroite avec les services AWS permet une mise sur le marché rapide, garantissant que les avantages prévus ne restent pas théoriques mais sont rapidement prouvés dans la pratique. 

Grâce à SnapLogic et à AWS, cette société d‘agrotechnologie dispose désormais d‘un site de données moderne et durable, plateforme , qui couvre à la fois ses anciens systèmes sur site et les systèmes cloud sur lesquels elle construit son avenir. 

Voici quelques ressources pour en savoir plus sur SnapLogic et ses capacités :

photo de Dominic Wellington
Architecte d‘entreprise chez SnapLogic
Nidhi Gupta, Sr. Partner Solutions Architect, Amazon Web Services
Architecte de solutions partenaires senior chez Amazon Web Services
Sujets : AWS
Cloud Une migration bien faite : comment éviter les pièges et garantir le succès

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.