Publié précédemment sur information-age.com.
Le lac de données et l‘entrepôt de données au sein de cloud présentent tous deux des avantages. Alors que les lacs de données consistent en des lagunes non organisées et sans catégories, ils sont parfaits pour les scientifiques des données qui peuvent ainsi analyser différents types de données à la fois.
Les deux types de stockage de données diffèrent également en ce qui concerne les outils accessibles.
"En général, pour des produits comme Redshift, Snowflake, Azure, SQL Data Warehouse, l‘une des choses les plus importantes lorsque l‘on parle d‘un entrepôt de données est l‘accessibilité aux outils qui sont disponibles aujourd‘hui et avec lesquels les gens sont familiers", a déclaré Craig Stewart, directeur technique de SnapLogic.
"Il peut s‘agir de quelque chose comme Microstrategy ou Tableau, ou de quelque chose comme AWS Insights ou Microsoft Power BI, qui peuvent tous communiquer avec ce magasin de données par le biais de SQL.
"C‘est vraiment ce qui différencie l‘entrepôt de données du lac de données. L‘accessibilité de ces outils, ainsi que la capacité d‘interrogation sous la forme SQL, démocratisent l‘utilisation de ces outils, de sorte que toute personne capable d‘utiliser SQL peut utiliser ces outils, alors que si vous parlez d‘un lac de données, vous avez un ensemble de capacités beaucoup plus diversifié, les API pour traiter les fichiers comme Parquet, etc. C‘est beaucoup plus ouvert et cela nécessite généralement des connaissances beaucoup plus approfondies".
Différences de capacités
Selon M. Stewart, la meilleure façon de stocker les données dépend du fournisseur que vous utilisez.
"Ce que font Amazon et Microsoft avec S3 et les différents systèmes de fichiers qu‘Amazon a produits, il est intéressant de constater que le site Microsoft Azure plateforme dispose désormais de trois systèmes de fichiers différents, ce qui est un peu déroutant pour les utilisateurs, mais ce qu‘ils font, c‘est qu‘ils itèrent sur les systèmes de fichiers pour offrir la meilleure fonctionnalité pour ce que les gens essaient de faire.
"Ainsi, dans le contexte d‘un entrepôt de données, le dernier système de fichiers, Azure Data Lake Storage Gen2, est particulièrement adapté au lac de données et à l‘accès que vous devez y avoir à partir de choses comme Spark, afin d‘obtenir les meilleures performances.
"L‘avantage du monde Amazon, c‘est que le S3 est cohérent depuis de nombreuses années et qu‘il n‘y a donc pas eu besoin d‘un grand nombre d‘itérations. Ils fournissent quelques capacités supplémentaires, des mises à jour de sécurité et des choses sur lesquelles vous pouvez itérer, mais pas un changement complet de l‘API comme l‘environnement Azure a eu. Mais bien sûr, en plus de cela, c‘est une question de format de stockage.
"Dans le monde des entrepôts de données, Parquet est devenu le format de prédilection en raison de sa nature compacte et, en cas de partitionnement, de la vitesse relativement rapide qu‘il permet d‘atteindre.
Avantages d‘un entrepôt de données cloud
Le directeur technique de SnapLogic a ensuite identifié deux avantages à l‘utilisation des plateformes d‘entrepôt de données cloud en particulier.
Tout d‘abord, il s‘agit d‘une dévolution de ce que nous faisions il y a quelques années lorsque nous essayions de décharger les requêtes des systèmes transactionnels de l‘entreprise, c‘est-à-dire ce que nous appelons le "déchargement des requêtes"", a déclaré M. Stewart. "Il s‘agit de prendre les données et de les placer ailleurs, dans une autre base de données, afin de pouvoir les interroger sans que cela ait un impact sur le système opérationnel.
"Aujourd‘hui, cette situation a vraiment disparu. Ces bases de données sur site utilisent désormais les entrepôts de données cloud . C‘est davantage ce que les gens essaient de faire, et ils trouvent que cela leur apporte de la valeur.
Le deuxième avantage de l‘entrepôt de données cloud , selon Stewart, est son évolutivité.
"Plutôt que d‘avoir à construire l‘échelle complète que vous souhaitez à tout moment, comme c‘était le cas auparavant, les entrepôts de données cloud ont désormais la capacité d‘évoluer à la demande", a-t-il déclaré.
"Lorsque j‘établis mon rapport journalier, hebdomadaire ou mensuel et que j‘ai besoin de plus de puissance, je peux maintenant le faire pendant les heures où je le souhaite, et le reste du mois, je peux le ramener à des niveaux habituels.
"Les clients en tirent d‘abord un avantage en termes de coûts, mais aussi parce que nous ne brûlons plus tous ces combustibles fossiles pour les alimenter. L‘évolutivité élastique du site cloud se concrétise dans le monde des entrepôts de données cloud de manière plus significative que dans la plupart des autres domaines."
Les défis
Bien entendu, l‘exploitation d‘un entrepôt de données cloud n‘est pas sans difficultés, et il ne s‘agit pas seulement des niveaux inférieurs de diversité des données par rapport aux lacs de données.
L‘un des défis relevés par Stewart concerne les coûts liés au transfert des données vers le site cloud.
"Il y a l‘idée que l‘on peut tout transférer sur le site cloud", explique-t-il. "C‘est possible, mais cela a un coût, sans aucun doute, non seulement pour déplacer les données dans cet environnement, mais aussi pour les y maintenir.
"L‘un des avantages d‘un lac de données par rapport à un entrepôt de données cloud est que le lac de données est beaucoup plus un stockage passif que l‘entrepôt de données cloud , où vous maintenez activement les différentes tables.
"Lorsqu‘on essaie de trouver le bon équilibre, un entrepôt de données cloud va coûter beaucoup plus cher que le simple stockage de base, et il faut comprendre l‘équilibre entre ce que je dois mettre dans mon entrepôt de données et ce que je dois garder uniquement dans le stockage, et l‘avantage est de déplacer les données à la demande dans l‘entrepôt de données cloud ."
Pour le directeur technique de SnapLogic, le deuxième défi est lié à l‘interrogation des données et à la communication entre l‘informatique et les décideurs.
"Avec Redshift Spectrum, les tables externes sont essentiellement définies dans l‘entrepôt de données cloud , mais lorsque vous les interrogez, le système effectue en arrière-plan une requête sur ces fichiers natifs, qui n‘est pas conservée directement en mémoire", a déclaré M. Stewart.
"Comprendre l‘équilibre entre ces éléments est donc un élément important de l‘entrepôt de données cloud et, du point de vue de Snaplogic, la manière dont les données sont acheminées vers cet entrepôt est le défi que nous relevons, en faisant en sorte que cette tâche puisse être entreprise par la ligne d‘activité plutôt que par l‘équipe informatique, et je pense que c‘est important.
"Si, au sein d‘une organisation, on veut être agile, obtenir des données interrogeables et utilisables dans un court laps de temps, il faut pouvoir dire ‘Nous ne pouvons pas attendre que l‘informatique transfère nos données parce que l‘informatique a généralement un arriéré et qu‘elle s‘occupe de la gestion quotidienne de l‘entreprise, plutôt que des processus plus agiles que la ligne d‘activité essaie d‘obtenir pour pouvoir faire ces choses, comme changer les lignes de produits, changer les prix, et être capable de comprendre ces choses‘".