Publié précédemment sur itproportal.com.
Un système doit être "modernisé" lorsqu‘il n‘est plus en mesure de répondre de manière satisfaisante aux problèmes actuels. De nombreux systèmes qui doivent aujourd‘hui être révisés étaient autrefois les meilleures options disponibles pour relever certains défis. Mais les défis qu‘ils ont résolus étaient limités à l‘environnement commercial, technologique et réglementaire dans lequel ils ont été conçus. Informatica, par exemple, a été fondée avant l‘apparition de l‘internet. Il va sans dire que l‘intégration d‘entreprise a profondément changé depuis.
L‘architecture traditionnelle des données sur site est un ensemble de systèmes qui a désespérément besoin d‘être modernisé. L‘augmentation considérable du volume, de la variété et de la vitesse des données aujourd‘hui déconcerte les systèmes existants. À l‘heure actuelle, les architectures de données traditionnelles plient sous le poids de ces trois défis. Bientôt, elles risquent de se briser.
Volume : Les données sont de plus en plus volumineuses.
Des quantités cosmiques de données inondent notre monde. Chaque jour, 3,5 milliards de recherches sont effectuées sur Google, 300 millions de photos sont téléchargées sur Facebook et 2,5 quintillions d‘octets de données sont créés. IDC prévoit que les données mondiales seront multipliées par dix entre 2016 et 2025 pour atteindre 163 zettaoctets[1]. L‘un des clients de SnapLogic dans le domaine de la biotechnologie traite chaque jour cinq milliards de documents[2], ce qui est remarquable.
La gestion de ces volumes croissants de données dans un environnement sur site n‘est pas viable. Les services informatiques finissent par consacrer un temps et des ressources précieux à l‘achat, à l‘installation et à la gestion du matériel. Ils doivent également écrire des tas de codes pour faire fonctionner les systèmes dans lesquels résident les données (par exemple, les bases de données, les entrepôts de données, etc.) Les organisations qui adoptent une telle approche de la gestion des données ne parviendront jamais à la profondeur d‘analyse nécessaire à l‘économie numérique. Elles seront comme des surfeurs pagayant sans cesse près du rivage sans jamais parvenir à franchir les vagues.
Variété : Les données sont trop disparates pour les systèmes traditionnels rigides.
Dans le passé, la plupart des données étaient de même nature. Dans l‘ensemble, elles étaient structurées et faciles à rassembler. Ce n‘est plus le cas aujourd‘hui. Aujourd‘hui, certaines données se trouvent dans des bases de données sur site, tandis que d‘autres résident dans des applications cloud . Une entreprise donnée peut collecter des données structurées, non structurées et semi-structurées. La variété ne cesse de croître.
Selon une enquête, les entreprises utilisent environ 1 180 services cloud , dont beaucoup produisent des données uniques. Dans un autre exemple, nous (SnapLogic) avons intégré plus de 400 applications pour une grande entreprise informatique.
Le processus d‘intégration de toutes ces données extrêmement disparates est à lui seul une tâche trop importante pour les systèmes existants. Dans le cadre d‘une architecture de données patrimoniale, vous devez souvent coder à la main vos pipelines de données, qui doivent ensuite être réparés dès qu‘une API est modifiée. Vous pouvez également être amené à superviser un amalgame de solutions d‘intégration, allant d‘outils point à point limités à des plates-formes volumineuses qui doivent être alimentées par des scripts. Ces approches traditionnelles sont lentes, complexes et mal adaptées à la variété croissante des données actuelles. Les systèmes existants contrecarrent largement les efforts des entreprises pour utiliser les données qu‘elles collectent.
La rapidité : Les données doivent circuler plus rapidement que les systèmes existants ne peuvent le faire.
Les scénarios dans lesquels vous aviez besoin d‘un traitement de données à grande vitesse étaient beaucoup moins nombreux dans les années passées que ceux que nous connaissons aujourd‘hui. Aujourd‘hui, les opérations critiques reposent de plus en plus sur le traitement des données en temps réel. Même un décalage de 10 secondes dans la livraison des données peut constituer une menace si vous avez affaire à des données "hypercritiques" (des données dont dépendent la santé et le bien-être des personnes). Il est intéressant de noter qu‘IDC estime que 10 % de toutes les données seront de nature hypercritique d‘ici à 2025. Dans certains cas, si ces données ne sont pas traitées instantanément, les conséquences peuvent être désastreuses. On pense notamment au transport aérien, aux voitures autonomes et aux cas d‘utilisation dans le domaine de la santé.
Les architectures de données traditionnelles ont du mal à traiter les données volumineuses (big data) avec la rapidité et la cohérence nécessaires dans les situations critiques. L‘une des raisons en est que, dans un environnement sur site, les services informatiques doivent essentiellement deviner la puissance de calcul dont ils auront besoin à un moment donné. S‘ils provisionnent trop peu de serveurs pour un événement de "charge de pointe", leur système risque de subir une panne. De plus, le volume et la variété des données entrantes sollicitent leur système traditionnel de gestion de base de données, ce qui ralentit également la vitesse de traitement des données.
Architecture moderne des données d‘entreprise : Résoudre les problèmes d‘aujourd‘hui ... et de demain
Tout indique que les architectures de données patrimoniales sont en passe de devenir obsolètes. Le rythme auquel cela se produira variera en effet selon les secteurs. Mais d‘ici peu, la plupart des organisations, si ce n‘est toutes, seront obligées de faire face à des défis liés aux données pour lesquels les systèmes existants n‘ont pas de réponse.
Les entreprises doivent moderniser leur architecture de données pour triompher dans le monde rapide des big data d‘aujourd‘hui. Un tel changement est probablement encore plus critique pour prospérer dans l‘ère qui reste à venir.
Une architecture de données d‘entreprise moderne (MEDA) est ancrée dans le site cloud. Avec un lac de données cloud en son cœur, une architecture moderne interdit le déversement de ressources dans des activités non stratégiques telles que la maintenance des serveurs et l‘acquisition de matériel. En effet, elle peut supporter des montagnes de données entrantes, et ce à grande échelle.
Le libre-service est également une caractéristique d‘une architecture de données moderne. Dans cet environnement, les nouvelles générations d‘outils de gestion de données à code basique réduisent considérablement le temps passé à effectuer des tâches de manipulation de données de base. Ils automatisent le processus de déplacement, de nettoyage et de transformation des données, quel que soit leur format. En même temps, la nécessité d‘effectuer des scripts manuels fastidieux s‘estompe.
Dans un tel contexte, les analystes et les scientifiques des données ne doivent plus consacrer 80 % de leur journée à la préparation des données. Ils peuvent au contraire se consacrer à l‘extraction de la valeur des données par le biais de l‘analyse. De plus, les travailleurs intellectuels de l‘ensemble de l‘organisation, et pas seulement les informaticiens, ont accès à des données exploitables. Et ils sont en mesure de les exploiter pour prendre des décisions commerciales à fort impact. Contrairement aux systèmes hérités, une architecture moderne crée une valeur immense à partir de données complexes et hétérogènes.
Enfin, une architecture moderne est conçue pour traiter les données en temps réel, même lorsqu‘elle est confrontée à des pics importants de trafic de données. Elle permet d‘éviter les dysfonctionnements gênants ainsi que les pannes dévastatrices. Une architecture de données moderne donne des assurances aux entreprises qui dépendent de plus en plus d‘un traitement de données à grande vitesse pour leurs opérations les plus critiques.
L‘augmentation inexorable du volume, de la variété et de la vitesse des données marquera la fin des systèmes existants. Si vous attendez pour moderniser votre architecture de données que les systèmes existants aient pleinement atteint cet objectif, il sera peut-être trop tard.
Pour en savoir plus sur l‘architecture moderne des données d‘entreprise, téléchargez notre site ebook, "The State of Modern Enterprise Data Architecture for Big Data Analytics" (L‘état de l‘architecture moderne des données d‘entreprise pour l‘analyse des données massives).
[1] 1 zettaoctet = 1 trillion de gigaoctets
[Un document unique contient souvent plusieurs unités de données.