Apache Hadoop YARN
Apache Hadoop YARN (Yet Another Ressources Negotiator) est une technologie de gestion distribuée lancée en 2012 sous Hadoop 2. Il vient pallier les faiblesses du Map Reduce. YARN permet d'exécuter tout type de processus distribué, à l'inverse de Hadoop 1 qui n'autorisait que le MapReduce.
YARN est utilisé pour repartir le management de ressources et la planification de jobs sur différents processus au sein du cluster. Il agit donc en tant que gestionnaire de ressources et planificateur de tâche.
À noter, il existe un projet homonyme dans l'écosystème Node.js qui est un gestionnaire de paquets JavaScript et qui ne partage pas de relation avec celui héberge par la fondation Apache et le projet Hadoop.
- En savoir plus
- Site officiel
Articles associés

TensorFlow avec Spark 2.3 : Le Meilleur des Deux Mondes
Catégories : Data Science, DataWorks Summit 2018 | Tags : Mesos, C++, CPU, GPU, Performance, Spark, YARN, JavaScript, Keras, Kubernetes, Machine Learning, Python, TensorFlow
L’intégration de Tensorflow dans Spark apporte de nombreux bénéfices et crée de nombreuses opportunités. Cet article est basé sur une conférence du DataWorks Summit 2018 à Berlin. Cette conférence…
Par HATI Yliess
29 mai 2018

YARN et le calcul distribué sur GPU pour le machine learning
Catégories : Data Science, DataWorks Summit 2018 | Tags : GPU, YARN, Machine Learning, Réseau de neurones, Storage
Dans cet article nous verrons les principes fondamentaux du Machine Learning et les outils actuellement utilisés pour exécuter ce type d’algorithmes, puis nous expliquerons comment un gestionnaire de…
Par JOUET Grégor
30 mai 2018

Apache Hadoop YARN 3.0 - État de l'art
Catégories : Big Data, DataWorks Summit 2018 | Tags : GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et évolutions
Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…
Par BAKALIAN Lucas
31 mai 2018

Deep learning sur YARN : lancer Tensorflow et ses amis sur des clusters Hadoop
Catégories : Data Science | Tags : GPU, Hadoop, MXNet, Spark, Spark MLlib, YARN, Deep Learning, PyTorch, TensorFlow, XGBoost
Avec l’arrivée de Hadoop 3, YARN offre plus de possibilités dans la gestion des ressources. Il est désormais possible de lancer des traitements de Deep Learning sur des GPUs dans des espaces dédiés du…
Par BIANCHERIN Louis
24 juil. 2018

Migration de cluster et de traitements entre Hadoop 2 et 3
Catégories : Big Data, Infrastructure | Tags : Shiro, Erasure Coding, Rolling Upgrade, HDFS, Spark, YARN, Docker
La migration de Hadoop 2 vers Hadoop 3 est un sujet brûlant. Comment mettre à niveau vos clusters, quelles fonctionnalités présentes dans la nouvelle version peuvent résoudre les problèmes actuels et…
Par BAKALIAN Lucas
25 juil. 2018

Mise en production d'un modèle de Machine Learning
Catégories : Big Data, Data Engineering, Data Science, DevOps & SRE | Tags : DevOps, Exploitation, IA, Cloud, Machine Learning, MLOps, On-premises, Schéma
“Le Machine Learning en entreprise nécessite une vision globale […] du point de vue de l’ingénierie et de la plateforme de données”, a expliqué Justin Norman lors de son intervention sur le…
Par RYNKIEWICZ Oskar
30 sept. 2019

Optimisation d'applicationS Spark dans Hadoop YARN
Catégories : Data Engineering, Formation | Tags : Performance, Hadoop, Spark, Python
Apache Spark est un outil de traitement de données in-memory très répandu en entreprise pour traiter des problématiques Big Data. L’exécution d’une application Spark en production nécessite des…
30 mars 2020

Stage en infrastructure Big Data avec TDP
Catégories : Infrastructure, Formation | Tags : Cybersécurité, DevOps, Java, Ansible, Hadoop, Internship, TDP
Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance et l’optimisation de certains des plus grands clusters de France…
Par HARTY Daniel
25 oct. 2021