Intégrer le fossé de la connaissance du big data

4 min lire

Par Bill Creekbaum

Que vous soyez analyste, data scientist, CxO ou simple utilisateur professionnel, l‘accès à davantage de données représente une opportunité de prendre de meilleures décisions commerciales, d‘identifier de nouvelles opportunités innovantes, de répondre à des menaces difficilement identifiables... les opportunités sont nombreuses.

Davantage de données - provenant de l‘IoT, des journaux de machines, des médias sociaux en continu, des applications natives cloud, etc. - vous parviennent avec des structures diverses, en volumes massifs et à grande vitesse. Les plateformes d‘analyse et d‘intégration traditionnelles n‘ont jamais été conçues pour gérer ces types de charges de travail.

Les données ci-dessus sont souvent associées au big data et tendent à être accessibles à un public très limité disposant d‘un grand nombre de compétences et d‘expériences techniques (par exemple, les scientifiques des données), ce qui limite l‘utilité pour l‘entreprise de disposer de davantage de données. Cela crée un fossé entre les big data de big data et empêche une population beaucoup plus large d‘utilisateurs et d‘analystes de profiter des avantages des big data. L‘objectif de notre industrie devrait être d‘aider les utilisateurs professionnels et les analystes à rendre opérationnelles les connaissances tirées des big data. En fait, Forbes a déclaré que 2017 serait l‘année où le le big data se généralise.

Deux éléments essentiels sont nécessaires pour combler cette lacune en matière de connaissances sur les big data :

  • Une donnée évolutive plateforme: Traite les big data compatibles avec les plates-formes analytiques "traditionnelles".
  • Une intégration plateforme: Acquisition de grands volumes de données diverses à haute vitesse sans dépendance informatique

Pour répondre au premier élément, Amazon a lancé Amazon Redshift Spectrum qui fait partie de la famille croissante des services de big data d‘AWS. Optimisé pour le stockage de données massives (par exemple, pétaoctets et exaoctets) qui exploite S3 et fourni avec la performance évolutive d‘Amazon Redshift, AWS rend les scénarios ci-dessus possibles d‘un point de vue opérationnel, accessible et économique :

  • Opérationnel : Amazon Redshift Spectrum permet d‘interagir avec des volumes de données et une diversité que ne permet pas la technologie OLAP traditionnelle.
  • Accessibilité : L‘interface SQL permet aux utilisateurs professionnels et aux analystes d‘utiliser des outils et des compétences analytiques traditionnels pour exploiter ces ensembles de données extrêmes.
  • Économique : Amazon Redshift Spectrum transfère la majorité des coûts liés aux big data vers le service S3, qui est bien plus économique que le stockage de l‘ensemble des données dans Redshift.

Il est clair qu‘Amazon a fourni un site plateforme qui peut démocratiser la fourniture de volumes extrêmement importants de données commerciales diverses aux utilisateurs et analystes commerciaux, leur permettant d‘utiliser les outils qu‘ils emploient actuellement, tels que Tableau, PowerBI, QuickSight, Looker et d‘autres applications basées sur SQL.

Cependant, à moins que les grands volumes de données diverses et à grande vitesse puissent être capturés, chargés sur S3 et mis à disposition via Redshift Spectrum, aucun des avantages susmentionnés ne sera réalisé et le fossé des connaissances en matière de big data demeurera.

Les principaux défis liés à l‘acquisition et à l‘intégration de grands volumes de données diversifiées et à grande vitesse :

  • Sur site dans un monde natif de Cloud: De nombreuses plates-formes d‘intégration ont été conçues il y a longtemps pour fonctionner sur site et pour charger des données dans un environnement OLAP par lots. Bien que certaines aient été mises à jour pour fonctionner sur cloud, beaucoup échoueront avec des charges de travail en continu et s‘effondreront sous le volume élevé de données diverses requis aujourd‘hui.
  • L‘intégration est une "tâche informatique" : Les plateformes d‘intégration classiques sont destinées à être utilisées par des organisations informatiques ou des intégrateurs de systèmes. Non seulement cela limite considérablement le nombre de personnes pouvant effectuer le travail d‘intégration, mais cela risque également d‘entraîner l‘intégration dans une longue file d‘attente de projet, ce qui retardera considérablement la réponse à des questions essentielles pour l‘entreprise.

Pour combler le deuxième élément du déficit de connaissances en matière de big data, les utilisateurs professionnels et les analystes eux-mêmes doivent être en mesure de capturer les "big data" afin de pouvoir répondre aux questions des entreprises en temps utile. S‘il faut un projet informatique long et complexe pour capturer les données, l‘opportunité commerciale risque d‘être perdue.

Pour combler le fossé qui sépare les utilisateurs et les analystes des big data, l‘intégration plateforme doit :

  • Traiter de grands volumes de données diverses et à grande vitesse
  • Se concentrer sur le développement de flux d‘intégration (et non sur le développement de codes complexes)
  • Respecter les normes et l‘infrastructure informatiques

Avec l‘approche d‘intégration ci-dessus, l‘avantage pratique est que ceux qui posent les questions commerciales et qui cherchent à obtenir des informations à partir d‘un plus grand nombre de données sont en mesure d‘exploiter les puissantes capacités d‘Amazon Redshift Spectrum et de répondre aux opportunités commerciales pendant qu‘elles sont encore importantes.

Amazon Redshift Spectrum et SnapLogic Enterprise Integration Cloud représentent une combinaison puissante pour combler les lacunes des utilisateurs et des analystes en matière de big data. Dans les prochains articles de blog, nous examinerons des cas d‘utilisation réels et apprendrons comment transformer ces concepts en réalité.

Si vous souhaitez savoir comment SnapLogic permet aux utilisateurs de l‘entrepôt cloud d‘améliorer jusqu‘à 10 fois la vitesse et la facilité d‘intégration des données pour les déploiements Redshift, consultez le livre blanc "Igniting discovery : Comment l‘intégration de données conçue pourcloud permet à Amazon Redshift de passer à la vitesse supérieure".

Bill Creekbaum est directeur principal de la gestion des produits chez SnapLogic. Suivez-le sur Twitter @wcreekba.

Ancien directeur principal de la gestion des produits chez SnapLogic
Catégorie : Données
Sujets : Big Data iPaaS

Nous recrutons !

Découvrez votre prochaine grande opportunité de carrière.