La plupart des entreprises n‘utilisent que 5 à 10 % des données qu‘elles collectent. C‘est ce qu‘estime Beatriz Sanz Sai, qui a 20 ans d‘expérience dans le domaine de l‘analyse avancée et dirige la pratique mondiale d‘Ernst & Young en matière de données et d‘analyse. Bien qu‘il soit impossible de valider une telle affirmation, le fait est que de nombreuses organisations collectent beaucoup de données mais n‘en analysent que peu.
Les anciens systèmes de gestion de bases de données sont en grande partie responsables de cette situation. Ils accaparent du temps et des ressources pour le stockage, la gestion et la préparation des données et entravent ainsi l‘analyse.
L‘essor du big data ne fera qu‘aggraver la situation. Il suffit de penser aux multiples données générées chaque jour dans les bases de données relationnelles, les applications SaaS, les applications mobiles, les publicités en ligne et les médias sociaux. Et puis il y a l‘internet des objets (IoT). Gartner prévoit que 20 ,4 milliards d‘appareils IoT occuperont notre monde d‘ici 2020 - 20 milliards d‘objets qui produiront des quantités cosmiques de données. Et ce ne sont pas seulement les énormes quantités de données qui menacent de bouleverser les systèmes existants ; les données deviennent également de plus en plus hétérogènes. Une étude révèle qu‘en moyenne, les entreprises utilisent 1 181 services cloud , dont beaucoup produisent des données uniques. La dette technologique, ainsi que la taille et la complexité croissantes des données, pousseront probablement les systèmes existants jusqu‘à leur point de rupture.
Pour être compétitives à l‘ère du big data, les entreprises doivent se tourner vers le site cloud. Les architectures de données modernes, basées sur le site cloud, sont la seule option viable pour surmonter les trois principaux obstacles que les systèmes existants posent à l‘analyse.
1. Les dangers du provisionnement
Avant l‘avènement des services de données cloud , les organisations n‘avaient d‘autre choix que de construire, d‘approvisionner et de maintenir leur propre infrastructure de données - une affaire coûteuse et nécessitant beaucoup de code. Cela signifiait qu‘à chaque fois que vous deviez stocker ou interroger davantage de données, vous deviez vous assurer que vous disposiez de la mémoire et de la puissance de calcul nécessaires pour les sauvegarder. Par conséquent, les services informatiques consacraient beaucoup de temps et d‘énergie à mesurer la mémoire vive, à acheter du matériel et du stockage supplémentaire pour les périodes de forte utilisation, à installer des serveurs et à s‘engager dans d‘autres activités qui, en elles-mêmes, ne permettaient pas d‘obtenir des informations sur les données.
Le provisionnement des serveurs n‘était qu‘une condition préalable lourde à l‘analyse. Aujourd‘hui, c‘est un obstacle.
Aujourd‘hui, les fournisseurs de services informatiques cloud , tels qu‘Amazon, Microsoft et Google, peuvent gérer votre infrastructure de données pour vous. S‘appuyant sur d‘immenses centres de données ultra-rapides, ils fournissent la quantité exacte de stockage et de puissance de calcul dont vous avez besoin à un moment donné. Contrairement aux entrepôts de données sur site, les alternatives cloud telles qu‘Amazon Redshift, Snowflake et Google BigQuery permettent de s‘adapter facilement à l‘évolution de vos besoins en matière de stockage et de traitement. Et ce, à un dixième du coût dans certains cas.
Plus important encore, les services de données cloud libèrent du temps pour l‘analyse. Demandez à MANA Partners. Cette société de négociation, de technologie et de gestion d‘actifs basée à New York a multiplié par quatre sa production de recherche quantitative après avoir adopté Google Cloud Platform, une solution d‘infrastructure en tant que service (IaaS).
Les limitations de stockage et de traitement ne doivent plus entraver vos analyses.
2. Pas de libre-service
Un autre problème chronique des systèmes de gestion de base de données sur site est qu‘ils nécessitent un codage beaucoup trop ardu. Seules les personnes dotées d‘une grande acuité technique - généralement un petit nombre d‘informaticiens - peuvent naviguer dans ces systèmes. Et même ces personnes ont du mal à les utiliser.
Comme on peut s‘y attendre, le chemin vers l‘analyse dans un environnement patrimonial est long et sinueux. Un développeur expert doit passer par plusieurs étapes compliquées, dont la moindre n‘est pas le processus d‘extraction, de transformation et de chargement (ETL). Le développeur doit créer des intégrations et déplacer les données des bases de données de production vers un lac de données ou un entrepôt de données, le tout en écrivant un code fastidieux. Dans un environnement sur site, cela peut prendre des semaines, voire des mois. Pendant ce temps, des informations qui pourraient aider à réduire les coûts et à augmenter le chiffre d‘affaires ne sont pas découvertes. Ces problèmes ne font qu‘empirer au fur et à mesure que vous ajoutez des sources de données.
Cloud sont beaucoup plus faciles à utiliser et évitent pratiquement le besoin de coder. Par exemple, SnapLogic, une solution d‘intégration plateforme as a service (iPaaS) basée sur le site cloud, permet aux intégrateurs ordinaires et aux architectes de données expérimentés de créer rapidement des pipelines de données à l‘aide d‘une interface de type "glisser-déposer". Dans un cas, un fabricant de produits de beauté multimilliardaire a réduit ses processus d‘intégration de trois semaines à trois heures grâce à SnapLogic.
Cela représente près de 120 heures supplémentaires qui peuvent désormais être consacrées à l‘acquisition de nouvelles connaissances grâce à l‘analyse.
3. Les rangs sont lents
Même si l‘on dépouillait les bases de données existantes de leur complexité et qu‘on les convertissait en applications en libre-service, elles ne permettraient toujours pas d‘effectuer des analyses rapides. En effet, les systèmes sur site stockent les données en ligne. Peu importe que votre équipe informatique ait passé un temps fou à convertir les données en lignes et en colonnes bien ordonnées pour le stockage. Lorsque vous interrogez une table basée sur des lignes, le système doit passer au crible toutes les données de chaque ligne, y compris les champs non pertinents, avant d‘extraire les données dont vous avez besoin. Les requêtes sont donc lentes et les performances médiocres, en particulier lorsqu‘il s‘agit de solliciter un grand ensemble de données. Les entrepôts de données sur site limitent considérablement votre capacité à créer des rapports à la volée, à extraire des données rapidement et à exécuter des requêtes complexes.
Les tableaux orientés colonnes, quant à eux, ignorent les champs impertinents et saisissent rapidement les données dont vous avez besoin. Elles sont donc en mesure de fournir des analyses rapides. En outre, les magasins à colonnes sont conçus pour gérer l‘océan de données disparates qui envahit notre monde.
Pour mettre cela en perspective, un client d‘Amazon a migré 4 milliards d‘enregistrements de données de son entrepôt de données sur site vers Amazon Redshift et a constaté une amélioration de 8 fois la performance des requêtes. De plus, il fallait 748 secondes au système sur site pour effectuer une requête, alors qu‘Amazon Redshift traitait la même requête en 207 secondes.
Le temps d‘attente pour obtenir des informations est beaucoup plus court avec les entrepôts de données cloud qu‘avec les entrepôts traditionnels.
L‘horloge tourne
Les investissements dans les services de données cloud continuent de grimper. IDC prévoit que les dépenses mondiales en services et infrastructures publics cloud atteindront 160 milliards de dollars d‘ici à la fin 2018, soit un bond de 23,2 % par rapport à l‘année précédente. Ceux qui restent les bras croisés, se contentant de rester sur place, se mettent en danger.
Les entreprises traditionnelles auront de plus en plus de mal à supporter le poids du big data. Et pendant qu‘ils sont occupés à provisionner des serveurs, à coder des intégrations à la main et à crouler sous les dettes technologiques, leurs concurrents, sur cloud, utiliseront l‘analytique pour étendre leur domination sur le secteur.
Combien de temps les organisations peuvent-elles survivre si elles n‘utilisent que cinq pour cent des données qu‘elles collectent ? Nous ne pouvons pas le savoir avec certitude. Mais ce qui devient plus clair, c‘est que la part de marché appartient à ceux qui déplacent leur architecture de données vers le site cloud. Le plus tôt sera le mieux.