Accueil❯Blog❯SnapLogic se rend à San Francisco pour le Spark Summit 2016
SnapLogic se rend à San Francisco pour le Spark Summit 2016
L‘équipe big data de SnapLogic était présente au Spark Summit la semaine dernière à San Francisco. Environ 2 500 personnes y ont participé cette année et plusieurs orateurs de haut niveau y ont pris la parole, comme Matei Zaharia, le créateur de Spark, Jeff Dean de Google, Andrew Ng de Baidu et des représentants d‘entreprises technologiques influentes telles qu‘Amazon, Microsoft et Intel.
La version 2.0 de Spark a fait l‘objet d‘une grande attention lors de l‘événement. Elle poursuit la tendance à construire un moteur unifié, à améliorer les API de haut niveau et à intégrer largement les bibliothèques d‘analyse de données et d‘apprentissage automatique. Dans Spark 2.0, le moteur Structured Streaming unifie le traitement par lots et par flux. En outre, le moteur prend en charge la même API Spark SQL que celle introduite dans les versions précédentes de Spark et continue de supporter les optimisations de requêtes développées pour elle. Globalement, Spark 2.0 devrait réduire les coûts de développement et améliorer les performances, tout en maintenant la compatibilité ascendante.
L‘une des grandes nouveautés de la conférence a été la sortie d‘une "édition communautaire" qui permet aux gens d‘apprendre gratuitement et de commencer à créer des applications avec Spark. Il y a eu de nombreuses bonnes démonstrations, notamment celle de Databricks. Cela semble être un excellent moyen de commencer avec Spark, car il élimine une grande partie de la complexité opérationnelle et offre de nombreuses ressources d‘apprentissage.
L‘un des messages les plus passionnants de ces conférences est que plusieurs problèmes d‘intelligence artificielle (IA) traditionnellement "difficiles", tels que la reconnaissance vocale, le traitement d‘images et la résolution de problèmes non structurés, ont récemment fait l‘objet de plusieurs percées importantes. Andrew Ng, de Baidu, a décrit le défi de l‘IA comme étant similaire à celui du vol spatial : la construction d‘une fusée nécessite le bon équilibre entre un moteur et du carburant, tout comme le succès de l‘IA nécessite le bon équilibre entre des modèles sophistiqués d‘apprentissage automatique et de grandes quantités de données. Le Spark Summit s‘est montré plutôt optimiste en affirmant que ces avancées allaient donner le coup d‘envoi d‘une "révolution de l‘intelligence" qui aurait autant d‘impact que la révolution industrielle au 20e siècle.
Quelques observations supplémentaires sur l‘événement :
Tous les intervenants de la session sur les cas d‘utilisation à laquelle j‘ai assisté (Uber, Netflix, Airbnb) effectuaient une forme ou une autre d‘ETL, mais aucun outil ne semblait avoir la préférence. L‘ingestion et la préparation des données semblent toujours être un gros point de douleur pour les ingénieurs de données.
Tout le monde parle de "pipelines de données", ce qui correspond bien à la terminologie de SnapLogic.
Parquet est le format préféré pour le stockage des données volumineuses.
MapReduce est désormais considéré comme dépassé, même Doug Cutting est d‘accord, mais les entreprises ont investi dans cette infrastructure et dans la formation, donc cela ne changera pas. L‘un des obstacles à l‘adoption de Spark chez Netflix (selon Kurt Brown) a été de trouver des développeurs ayant une expérience de Spark. C‘est important pour les pipelines de données Spark de SnapLogic et Hadooplex car cela permet aux gens de commencer à utiliser Spark sans expérience des API et de réutiliser une partie de l‘expérience Yarn à laquelle les gens ont été exposés à travers MapReduce.
Dans l‘ensemble, cet événement a permis de mieux comprendre l‘évolution de Spark et la façon dont les gens l‘utilisent. C‘était également un bon moyen de sonder les priorités de SnapLogic en matière d‘intégration des big data: investir dans Parquet, Spark, l‘IoT et le streaming, qui semblent tous être en phase avec la communauté. Nous avons hâte d‘intégrer cette expérience dans le travail que nous effectuons chez SnapLogic.
Si vous souhaitez en savoir plus sur la façon dont SnapLogic fonctionne avec Spark ou Big Data, visitez notre page vidéo pour regarder des webinaires intéressants et des démonstrations SnapLogic. Nous recherchons également des développeurs Big Data seniors, alors rejoignez notre équipe Big Data !