Apache Hadoop MapReduce
MapReduce est un framework de traitement de données distribué. Il fait partie du framework Apache Hadoop et fonctionne sur Apache HDFS.
Ce framework permet de traiter efficacement de grandes quantités de données distribuées sur plusieurs nœuds.
Au cours d'un traitement MapReduce, les données sont découpées en morceaux qui sont traités en parallèle par les tâches MapReduce. Les deux tâches principales de MapReduce sont :
- Mapper : les tâches de mappage traitent les enregistrements un par un et produisent des paires de clé-valeur. La clé est la donnée en entrée et la valeur est le résultat de l'opération.
- Reducer : la tâche de réduction traite le résultat des mappeurs groupés par la même clé. Le réducteur effectue une opération d'agrégation pour chaque groupe.
Toutes les étapes de traitement sont conservées dans HDFS. En cas d'échec, MapReduce peut récupérer les étapes de traitement précédentes. Cela assure une haute disponibilité du système.
- En savoir plus
- Site officiel
Articles associés
Stage en infrastructure Big Data avec TDP
Catégories : Infrastructure, Formation | Tags : Cybersécurité, DevOps, Java, Ansible, Hadoop, Internship, TDP
Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance et l’optimisation de certains des plus grands clusters de France…
Par HARTY Daniel
25 oct. 2021
Espace de stockage et temps de génération des formats de fichiers
Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)
Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…
Par NGOM Barthelemy
22 mars 2021
Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)
Catégories : Big Data, Cloud computing, Data Engineering | Tags : NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2
Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plateforme Big Data on…
Par LEONARD Gauthier
5 nov. 2020
Comparaison de différents formats de fichier en Big Data
Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers
Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…
Par NGOM Aida
23 juil. 2020
Hadoop Ozone partie 1: introduction du nouveau système de fichiers
Catégories : Infrastructure | Tags : HDFS, Ozone, Cluster, Kubernetes
Hadoop Ozone est système de stockage d’objet pour Hadooop. Il est conçu pour supporter des milliards d’objets de tailles diverses. Il est actuellement en développement. La feuille de route est…
3 déc. 2019
Apache Hadoop YARN 3.0 - État de l'art
Catégories : Big Data, DataWorks Summit 2018 | Tags : GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et évolutions
Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…
Par BAKALIAN Lucas
31 mai 2018
Présentation de MapReduce
Catégories : Big Data | Tags : Java, MapReduce, Big Data, JavaScript
Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information…
Par WORMS David
26 juin 2010