Apache Hadoop MapReduce

MapReduce est un framework de traitement de données distribué. Il fait partie du framework Apache Hadoop et fonctionne sur Apache HDFS.

Ce framework permet de traiter efficacement de grandes quantités de données distribuées sur plusieurs nœuds.

Au cours d'un traitement MapReduce, les données sont découpées en morceaux qui sont traités en parallèle par les tâches MapReduce. Les deux tâches principales de MapReduce sont :

  • Mapper : les tâches de mappage traitent les enregistrements un par un et produisent des paires de clé-valeur. La clé est la donnée en entrée et la valeur est le résultat de l'opération.
  • Reducer : la tâche de réduction traite le résultat des mappeurs groupés par la même clé. Le réducteur effectue une opération d'agrégation pour chaque groupe.

Toutes les étapes de traitement sont conservées dans HDFS. En cas d'échec, MapReduce peut récupérer les étapes de traitement précédentes. Cela assure une haute disponibilité du système.

En savoir plus
Site officiel

Articles associés

Stage en infrastructure Big Data avec TDP

Stage en infrastructure Big Data avec TDP

Catégories : Infrastructure, Formation | Tags : Cybersécurité, DevOps, Java, Ansible, Hadoop, Internship, TDP

Le Big Data et l’informatique distribuée sont au cœur d’Adaltas. Nous accompagnons nos partenaires dans le déploiement, la maintenance et l’optimisation de certains des plus grands clusters de France…

HARTY Daniel

Par HARTY Daniel

25 oct. 2021

Espace de stockage et temps de génération des formats de fichiers

Espace de stockage et temps de génération des formats de fichiers

Catégories : Data Engineering, Data Science | Tags : Avro, HDFS, Hive, ORC, Parquet, Big Data, Data Lake, Format de fichier, JavaScript Object Notation (JSON)

Le choix d’un format de fichier approprié est essentiel, que les données soient en transit ou soient stockées. Chaque format de fichier a ses avantages et ses inconvénients. Nous les avons couverts…

NGOM Barthelemy

Par NGOM Barthelemy

22 mars 2021

Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Connexion à ADLS Gen2 depuis Hadoop (HDP) et NiFi (HDF)

Catégories : Big Data, Cloud computing, Data Engineering | Tags : NiFi, Hadoop, HDFS, Authentification, Autorisation, Azure, Azure Data Lake Storage (ADLS), OAuth2

Alors que les projets Data construits sur le cloud deviennent de plus en plus répandus, un cas d’utilisation courant consiste à interagir avec le stockage cloud à partir d’une plateforme Big Data on…

LEONARD Gauthier

Par LEONARD Gauthier

5 nov. 2020

Comparaison de différents formats de fichier en Big Data

Comparaison de différents formats de fichier en Big Data

Catégories : Big Data, Data Engineering | Tags : Business Intelligence, Data structures, Avro, HDFS, ORC, Parquet, Traitement par lots, Big Data, CSV, JavaScript Object Notation (JSON), Kubernetes, Protocol Buffers

Dans l’univers du traitement des données, il existe différents types de formats de fichiers pour stocker vos jeu de données. Chaque format a ses propres avantages et inconvénients selon les cas d…

NGOM Aida

Par NGOM Aida

23 juil. 2020

Hadoop Ozone partie 1: introduction du nouveau système de fichiers

Hadoop Ozone partie 1: introduction du nouveau système de fichiers

Catégories : Infrastructure | Tags : HDFS, Ozone, Cluster, Kubernetes

Hadoop Ozone est système de stockage d’objet pour Hadooop. Il est conçu pour supporter des milliards d’objets de tailles diverses. Il est actuellement en développement. La feuille de route est…

CORDONNIER Paul-Adrien

Par CORDONNIER Paul-Adrien

3 déc. 2019

Apache Hadoop YARN 3.0 - État de l'art

Apache Hadoop YARN 3.0 - État de l'art

Catégories : Big Data, DataWorks Summit 2018 | Tags : GPU, Hortonworks, Hadoop, HDFS, MapReduce, YARN, Cloudera, Data Science, Docker, Versions et évolutions

Cet article couvre la présentation ”Apache Hadoop YARN: state of the union” (YARN état de l’art) par Wangda Tan d’Hortonworks lors de la conférence DataWorks Summit 2018 Berlin (anciennement Hadoop…

BAKALIAN Lucas

Par BAKALIAN Lucas

31 mai 2018

Présentation de MapReduce

Présentation de MapReduce

Catégories : Big Data | Tags : Java, MapReduce, Big Data, JavaScript

Les systèmes d’information ont de plus en plus de données à stocker et à traiter. Des entreprises comme Google, Facebook, Twitter mais encore bien d’autre stockent des quantités d’information…

WORMS David

Par WORMS David

26 juin 2010

Canada - Maroc - France

Nous sommes une équipe passionnée par l'Open Source, le Big Data et les technologies associées telles que le Cloud, le Data Engineering, la Data Science le DevOps…

Nous fournissons à nos clients un savoir faire reconnu sur la manière d'utiliser les technologies pour convertir leurs cas d'usage en projets exploités en production, sur la façon de réduire les coûts et d'accélérer les livraisons de nouvelles fonctionnalités.

Si vous appréciez la qualité de nos publications, nous vous invitons à nous contacter en vue de coopérer ensemble.

Support Ukrain