Qu‘est-ce que l‘architecture big data ?
L‘architecture des big data est la structure qui sous-tend les systèmes de big data. Elle peut se référer à sa composition théorique et/ou physique. L‘architecture big data est censée être structurée de manière à permettre l‘ingestion, le traitement et l‘analyse optimaux des données.
Les architectes système sont spécialisés, à l‘instar des architectes en bâtiment, dans la mise en place d‘un processus qui permettra la plus grande rapidité et l‘utilisation la plus efficace des ressources en fonction des besoins d‘une entreprise. Les personnes intéressées par l‘architecture des big data et par une carrière dans ce domaine sont encouragées à suivre les certifications big data recommandées par l‘industrie, telles que la certification Cloudera.
Il a fallu que l‘architecture des big data prenne une nouvelle direction. Les systèmes de base de données traditionnels auraient du mal à faire face à l‘interrogation des centaines de téraoctets de données contenues dans les lacs de données. La définition de base d‘un lac de données est un énorme dépôt de fichiers, d‘objets ou de blocs de données, pouvant contenir des gigaoctets à des pétaoctets de données. L‘ampleur de ces données signifie qu‘une architecture big data inefficace peut conduire à ce qu‘une simple requête prenne des heures, voire des jours, pour produire des résultats.
Les composants communs de l‘architecture big data sont les suivants :
- Sources de données
- Stockage des données
- Traitement par lots
- Ingestion de messages
- Traitement des flux
- Magasin de données analytiques
- Analyse et rapports
Les utilisateurs de big data les plus susceptibles de se préoccuper du perfectionnement de leur infrastructure sont ceux qui stockent et traitent de très grandes quantités de données (c‘est-à-dire plus de 100 gigaoctets). D‘autres utilisations concernent ceux qui ont besoin de données non structurées transformées pour pouvoir les utiliser à des fins d‘analyse et de reporting.
Cloud-Les services ou plateformes basés sur le big data(Azure ou Salesforce, par exemple) peuvent être utilisés comme éléments de l‘architecture big data d‘une entreprise ou même pour gérer l‘ensemble du processus. L‘intégration de services bien établis, dont SnapLogic, peut permettre aux entreprises d‘accéder à des connaissances, des ressources et une sécurité qu‘elles ne pourraient peut-être pas maintenir en interne.