Cet article a été publié à l‘origine sur ITProPortal.
Les employés, d‘un bout à l‘autre de la chaîne de valeur, sont impatients de se plonger dans les solutions de big data, à la recherche de pépites d‘or qui les aideront à prendre des décisions plus judicieuses, à développer les relations avec les clients et à améliorer l‘efficacité de l‘entreprise. Pour ce faire, ils ont été confrontés à un éventail vertigineux de technologies - des projets open source aux produits logiciels commerciaux - alors qu‘ils tentent de lutter contre le big data.
Aujourd‘hui, une grande partie des titres et de l‘élan se concentrent sur une combinaison de Hadoop, Spark et Redshift - qui peuvent tous être des tremplins pour le travail sur les big data. Il est toutefois important de prendre du recul et de voir où nous en sommes dans l‘évolution des big data.
À bien des égards, le big data est en pleine transition. Hadoop a atteint l‘âge de la préadolescence, après avoir été lancé en avril 2006 en tant que projet officiel d‘Apache et avoir pris d‘assaut le monde du logiciel en tant que cadre pour le stockage et le traitement distribués des données, basé sur du matériel de base. Apache Spark est en train de prendre son essor en tant que moteur de streaming "rapide comme l‘éclair" pour le traitement de données à grande échelle. Et diverses plateformes d‘entreposage de données et d‘analyse cloud émergent, des grands noms(Amazon Redshift, Microsoft Azure HDInsight et Google BigQuery) aux nouveaux acteurs tels que Snowflake, Qubole et Confluent.
Le problème est que la plupart des progrès réalisés dans le domaine des big data au cours de la dernière décennie ont été limités aux grandes entreprises dotées de grandes équipes d‘ingénierie et de science des données. Les systèmes sont souvent complexes, immatures, difficiles à gérer et changent fréquemment - ce qui peut convenir à une entreprise de la Silicon Valley, mais ne convient pas au reste du monde. Qu‘en est-il si vous êtes une entreprise de biens de consommation comme Clorox, une banque de taille moyenne dans le Midwest ou une grande société de télécommunications en Australie ? Est-il possible de le faire sans déployer 100 ingénieurs Java qui connaissent la technologie de fond en comble ?
En fin de compte, la plupart des entreprises souhaitent simplement obtenir de meilleures données et des réponses plus rapides - elles ne veulent pas des maux de tête technologiques qui vont de pair. Heureusement, la "méga-tendance" du big data entre en collision avec une autre méga-tendance : cloud computing. Alors qu‘Hadoop et d‘autres plateformes de big data ont connu une lente maturation, l‘écosystème cloud s‘est développé plus rapidement - et cloud peut désormais contribuer à résoudre une grande partie des problèmes qui ont entravé les progrès du big data.
Les problèmes rencontrés par les clients avec Hadoop sur site sont souvent les mêmes que ceux rencontrés avec les systèmes patrimoniaux sur site : il n‘y a tout simplement pas assez de personnes compétentes pour tout faire. Les entreprises veulent des capacités de pointe, mais elles ne veulent pas être confrontées à des bogues, à des intégrations défectueuses et à des versions qui changent rapidement. De plus, les modèles de consommation évoluent - nous voulons consommer des données, du stockage et de l‘informatique à la demande. Nous ne voulons pas acheter trop cher. Nous voulons accéder à l‘infrastructure quand et comme nous le voulons, avec juste ce dont nous avons besoin, mais plus encore.
Le point de basculement du Big Data se trouve dans la Cloud
En bref, le point de basculement du big data est sur le point de se produire - et il se produira via le site cloud. La première vague de " big data via le site cloud" était simple : des entreprises comme Cloudera ont mis leur logiciel sur Amazon. Mais ce qui est "vraiment cloud", c‘est de ne pas avoir à gérer Hadoop ou Spark - en déplaçant la complexité vers une infrastructure hébergée, de sorte que quelqu‘un d‘autre la gère pour vous. À cette fin, Amazon, Microsoft et Google proposent désormais des solutions "managed Hadoop" et "managed Spark" - vous n‘avez plus qu‘à vous préoccuper des données dont vous disposez, des questions que vous vous posez et des réponses que vous souhaitez obtenir. Il n‘est pas nécessaire de mettre en place un cluster, de rechercher de nouveaux produits ou de se préoccuper de la gestion des versions. Il vous suffit de charger vos données et de commencer le traitement.
La gestion des données volumineuses via le site cloud présente trois avantages importants, qui ne sont pas toujours évidents : 1) Prévisibilité - la charge de l‘infrastructure et de la gestion est transférée aux fournisseurs cloud , et vous consommez simplement des services que vous pouvez augmenter ou réduire selon vos besoins ; 2) Économie - contrairement à Hadoop sur site, où l‘informatique et le stockage étaient entremêlés, cloud sépare l‘informatique et le stockage afin que vous puissiez provisionner en conséquence et bénéficier de l‘économie des produits de base ; et 3) Innovation - de nouveaux logiciels, infrastructures et meilleures pratiques seront déployés en permanence par les fournisseurs cloud , afin que vous puissiez en tirer pleinement parti sans avoir à investir du temps et de l‘argent au départ.
Bien sûr, il y a encore beaucoup de travail à faire, mais il est davantage axé sur les données et l‘activité, et non sur l‘infrastructure. La bonne nouvelle pour les clients ordinaires (bien au-delà de la Silicon Valley) est qu‘une autre tendance de fond est en train de révolutionner l‘intégration et la consommation des données, à savoir le passage au libre-service. Grâce à de nouveaux outils et plateformes, l‘"intégration en libre-service" permet de créer rapidement et facilement des pipelines de données automatisés sans codage, et l‘"analyse en libre-service" permet aux analystes et aux utilisateurs professionnels de manipuler facilement les données sans intervention de l‘informatique.
Dans l‘ensemble, ces tendances conduisent à une démocratisation des données qui est très intéressante et qui aura un impact significatif sur les fonctions horizontales et les industries verticales. Les données deviennent ainsi une ressource plus fluide, dynamique et accessible pour toutes les organisations. L‘informatique ne détient plus les clés du royaume et les développeurs ne contrôlent plus le workflow. Et cela arrive à point nommé, car le volume et la vitesse des données provenant des médias numériques et sociaux, des outils mobiles et des appareils périphériques menacent de nous submerger tous. Lorsque les promesses de l‘internet des objets, de l‘intelligence artificielle et de l‘apprentissage automatique commenceront à se concrétiser, le trop-plein de données sera véritablement inondant.
La seule question qui subsiste est la suivante : Que voulez-vous faire de vos données ?
Ravi Dharnikota est architecte d‘entreprise en chef chez SnapLogic.