YARN, une avancée majeure dans Hadoop 2.0, est un gestionnaire de ressources qui sépare la gestion de l‘exécution et du traitement des capacités de gestion des ressources de MapReduce. Comme un système d‘exploitation sur un serveur, YARN est conçu pour permettre à des applications utilisateurs multiples et diverses de fonctionner sur un serveur multi-locataires plateforme.
Les développeurs ne sont plus limités à l‘écriture de programmes MapReduce multi-passes avec des inconvénients tels qu‘une latence élevée, alors qu‘une meilleure option peut être modélisée en utilisant une approche graphique acyclique dirigée (DAG).
Toute application, y compris Spark, peut être déployée sur un cluster Hadoop existant et tirer parti de YARN pour l‘ordonnancement et l‘allocation des ressources. C‘est également l‘ingrédient de base d‘un Hadooplex dans SnapLogic - pour obtenir une mise à l‘échelle élastique pour les travaux d‘intégration.
L‘ApplicationMaster par application est, en fait, une bibliothèque spécifique au cadre et a pour tâche de négocier des ressources auprès du ResourceManager et de travailler avec le(s) NodeManager(s) pour exécuter et surveiller les tâches.
Le maître d‘application de SnapLogic est responsable de la négociation des ressources avec le ResourceManager. Le plan de contrôle de SnapLogic est le cerveau (lire cet article sur l‘intégration définie par logiciel), qui contient toutes les informations critiques et aide à prendre des décisions logiques pour la mise à l‘échelle et l‘extension. Le plan de contrôle Hadooplex est l‘application proprement dite qui exécute la charge de travail.
Dans ce diagramme, vous pouvez voir que le Hadooplex communique ses informations sur la charge de travail au plan de contrôle à intervalles réguliers. Le maître d‘application reçoit les informations sur la charge de travail du plan de contrôle, également à intervalles réguliers.
Au fur et à mesure que la charge de travail augmente, le maître de l‘application demande au ResourceManager YARN d‘ajouter des nœuds Hadooplex, un par un, comme le montre le diagramme ci-dessous. Cette mise à l‘échelle se produit dynamiquement jusqu‘à ce que la charge de travail commence à diminuer ou qu‘un nombre maximal de nœuds Hadooplex soit atteint.
Au fur et à mesure que la charge de travail diminue, les nœuds commencent à s‘éteindre. C‘est ainsi que SnapLogic réalise une mise à l‘échelle élastique basée sur les volumes de charge de travail au sein d‘un cluster Hadoop en utilisant le ResourceManager YARN. Cela n‘est possible que si une application est une application YARN native. (Pour en savoir plus sur l‘importance d‘une application native YARN, cliquez ici).
Prochaines étapes :
- Pour en savoir plus, cliquez ici sur la façon dont les clients utilisent SnapLogic pour l‘intégration des big data avec Hadoop.
- Découvrez une démonstration de nos nouvelles capacités Spark.
- En savoir plus sur les plates-formes de traitement des données de SnapLogic
Cet article a été publié à l‘origine sur LinkedIn.