Cet article a été publié à l‘origine sur computable.nl.
De nombreuses entreprises souhaitent utiliser les "big data" pour prendre de meilleures décisions, renforcer les relations avec les clients et accroître l‘efficacité au sein de l‘entreprise. Elles sont confrontées à un éventail vertigineux de technologies - des projets open source aux logiciels commerciaux - qui peuvent les aider à mieux maîtriser les grandes quantités de données. Par exemple, des services tels que Hadoop, Spark et Redshift peuvent être utilisés comme base pour travailler avec les big data.
En fin de compte, la plupart des entreprises souhaitent simplement obtenir de meilleures données et des réponses plus rapides, sans avoir à se préoccuper des difficultés liées à l‘application de différentes technologies. Alors que Hadoop et d‘autres plateformes de big data se sont développées lentement, le site cloud s‘est développé plus rapidement. Par conséquent, le site cloud peut désormais résoudre bon nombre des problèmes qui empêchaient auparavant les progrès du big data.
Utilisation optimale
Ces dernières années, ce sont surtout les grandes entreprises dotées de vastes départements d‘ingénierie et de science des données qui ont répondu à la promesse du big data. Les systèmes utilisés étaient complexes, difficiles à gérer et susceptibles d‘être modifiés. Cela est possible pour les grandes entreprises de la Silicon Valley, mais l‘entreprise néerlandaise moyenne ne peut pas se permettre de tels systèmes. Une entreprise moyenne veut les meilleures données le plus rapidement possible au bon endroit, sans devoir engager des dizaines d‘ingénieurs Java parce qu‘ils connaissent la technologie de A à Z.
Les problèmes rencontrés par les clients avec Hadoop on-premises plateforme sont souvent les mêmes que ceux qu‘ils ont rencontrés avec les systèmes locaux hérités : le personnel n‘est tout simplement pas assez qualifié pour tout faire. Les entreprises veulent des capacités avancées, mais elles ne veulent pas être confrontées à des bogues, à des intégrations ratées et à de nouvelles versions. En outre, les modèles de consommation évoluent : nous voulons consommer, stocker et traiter des données à tout moment. Nous ne voulons pas trop de capacité. Nous voulons accéder à l‘infrastructure à tout moment et de toutes les manières possibles, et nous voulons toujours quelque chose de plus que ce dont nous avons besoin.
En bref, les big data ne peuvent être utilisées de manière optimale qu‘à l‘aide de cloud. La première vague de "big data via le site cloud" était simple : des entreprises comme Cloudera ont mis leur logiciel sur Amazon. Mais le "vrai cloud" signifie que les entreprises ne doivent pas gérer Hadoop ou Spark - mais déplacer la complexité vers une infrastructure hébergée, où quelqu‘un d‘autre s‘occupe de la gestion. À cette fin, Amazon, Microsoft et Google proposent désormais des solutions "managed Hadoop" et "managed Spark". Les entreprises n‘ont qu‘à penser aux données dont elles disposent, aux questions qu‘elles se posent et aux réponses qu‘elles souhaitent obtenir. Il n‘est pas nécessaire de faire fonctionner un cluster, de rechercher de nouveaux produits ou de se préoccuper de la gestion des versions. Il suffit de charger les données et de commencer à les traiter.
Les raisons de gérer les big data
Il y a trois raisons importantes - qui ne sont peut-être pas toujours évidentes - de gérer les big data sur le site cloud:
- Prévisibilité: Le fournisseur cloud est responsable de l‘infrastructure et de sa gestion. Par conséquent, les entreprises peuvent évoluer en fonction de leurs idées et de leurs besoins, sans être confrontées à des surprises (financières).
- Rentabilité: Contrairement à Hadoop sur site, où la puissance de calcul et le stockage s‘influencent mutuellement, ils sont séparés sur le site cloud. Les entreprises peuvent à la fois se déployer individuellement en fonction de leurs besoins et bénéficier de coûts réduits.
- Innovation: les fournisseurs de Cloud mettent continuellement en œuvre les logiciels, l‘infrastructure et les meilleures pratiques les plus récents. Les entreprises peuvent ainsi tirer le meilleur parti des avantages du site cloud sans investir de temps ni d‘argent.
Bien sûr, il y a encore beaucoup de travail à faire, mais il est davantage axé sur les données et les opérations, et non sur l‘infrastructure. La bonne nouvelle pour les entreprises est qu‘il existe une "nouvelle" tendance dans le domaine de l‘intégration et de l‘utilisation des données, à savoir la transition vers le libre-service. Grâce à de nouveaux outils et plateformes, l‘"intégration en libre-service" permet de créer rapidement et facilement des plans de données automatisés sans utiliser de code. L‘"analyse en libre-service" permet aux analystes et aux utilisateurs professionnels d‘éditer plus facilement les données sans l‘intervention du service informatique.
Dans l‘ensemble, ces tendances sont responsables de la démocratisation des données, ce qui est prometteur. Cela aura un impact significatif sur les fonctions horizontales et les industries verticales. Les données deviennent ainsi une source plus fluide, dynamique et accessible pour toutes les organisations. L‘informatique ne détient plus les clés du royaume et les développeurs ne déterminent plus le workflow. Juste à temps, car le volume et la vitesse des données provenant des médias numériques et sociaux, des outils mobiles et des appareils de pointe menacent de nous submerger. Dès que les promesses de l‘internet des objets, de l‘IA et de l‘apprentissage automatique se concrétiseront, nous serons submergés par d‘énormes quantités de données.